Hive parquet数据格式内部结构

parquet是一个列式存储格式,对于大型查询、指定列查询都是高效的,内部由一个header,四个block,一个footer组成。 header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式 文件中所有的metadata都存在于footer中 footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的meta
相关文章
相关标签/搜索