存储格式:parquet和orc对比

Orc格式 Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存储格式。 如下图所示可以看到每个Orc文件由1个或多个stripe组成,每个stripe一般为HDFS的块大小,每一个stripe包含多条记录,这些记录按照列进行独立存储,对应到Parquet中的row group的概念。每个Stripe里有三部分组成,分别是Index Data,Row Dat
相关文章
相关标签/搜索