hive优化-存储格式

Hive中的文件格式大致上分为面向行和面向列两类: 面向行:同一行的数据存储在一起,即连续存储。TextFile,SequenceFile。采用这种方式,如果只需要访问行的一小部分数据,亦需要将整行读入内存,推迟序列化一定程度上可以缓解这个问题,但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况。 面向列:整个文件被切割为若干列数据,每一列数据一起存储。 RCFi
相关文章
相关标签/搜索