Parquet原理

在互联网大数据应用场景下,通常数据量很大且字段很多, 但每次查询数据只针对其中的少数几个字段,这时候列式存储是极佳的选择。 列式存储要解决的问题: 把IO只给查询需要用到的数据 只加载需要被计算的列 空间节省 列式的压缩效果更好 可以针对数据类型进行编码 开启矢量化的执行引擎(不再1条1条的处理数据,而是一次处理1024条数据) Parquet和ORC是两种列式存储格式 今天主要介绍Parquet
相关文章
相关标签/搜索