Parquet格式解析

parquet是列式存储格式,官方文档apache

https://parquet.apache.org/documentation/latest/

 一个Parquet文件是由一个header以及一个或多个block块组成,以一个footer结尾。header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。文件中全部的metadata都存在于footer中。footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及全部block中的metadata信息。footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的同样的PAR1。bash

在Parquet文件中,每个block都具备一组Row group,它们是由一组Column chunk组成的列数据。继续往下,每个column chunk中又包含了它具备的pages。每一个page就包含了来自于相同列的值blog

相关文章
相关标签/搜索