parquet列式文件实战

前言 列式文件,顾名思义就是按列存储到文件,和行式存储文件对应。保证了一列在一个文件中是连续的。下面从parquet常见术语,核心schema和文件结构来深入理解。最后通过java api完成write和read。   术语 block parquet层面和row group是一个意思   row group 逻辑概念,用于对row进行分区。由数据集中每个column的column chunk组成
相关文章
相关标签/搜索