ORC 文件存储格式

一、orc列式存储概念html

a)列式存储:orc并非纯粹的列式存储,也是先基于行对数据表进行分组(行组),而后对行组进行列式存储。app

b)查询数据的时候不须要扫描所有数据(磁盘IO),只需查询指定列便可。3d

c)orc对每一列提供了常规统计信息(min 、 max 、 sum等),加速查询。例如过滤条件f>10,若是当前分片的max小于10,则直接过滤掉这个分片。htm

d)每一列的数据都是同构的,所以压缩效率更高。blog

e)读写orc文件须要压缩、解压,须要消耗额外的cpu资源。索引

以上是orc文件格式的优劣点。ip

 

二、orc文件格式资源

a)orc文件分层:orc -> stripe -> row groupget

b)orc索引分级:file level -> stripe level -> row group levelio

orc reader 根据 search arguments 判断是否能够跳过某些数据。

 

三、orc文件读写

orc append

a)How to append ORC file

 

参考:

orc文件存储格式

相关文章
相关标签/搜索