一、orc列式存储概念html
a)列式存储:orc并非纯粹的列式存储,也是先基于行对数据表进行分组(行组),而后对行组进行列式存储。app
b)查询数据的时候不须要扫描所有数据(磁盘IO),只需查询指定列便可。3d
c)orc对每一列提供了常规统计信息(min 、 max 、 sum等),加速查询。例如过滤条件f>10,若是当前分片的max小于10,则直接过滤掉这个分片。htm
d)每一列的数据都是同构的,所以压缩效率更高。blog
e)读写orc文件须要压缩、解压,须要消耗额外的cpu资源。索引
以上是orc文件格式的优劣点。ip
二、orc文件格式资源
a)orc文件分层:orc -> stripe -> row groupget
b)orc索引分级:file level -> stripe level -> row group levelio
orc reader 根据 search arguments 判断是否能够跳过某些数据。
三、orc文件读写
orc append
参考: