Hadoop文件格式

1、Hadoop中文件格式大致分为面向行、面向列两种方式: 面向行: 同一行数据存储在一起,如SequenceFile、MapFile、Avro DataFile都是该存储方式,如果需要访问同行小部分数据,也需要将整行读入内存,所以该存储方式适合整行数据同时处理的情况。 面向列: 整个文件被切割成若干列数据,每列数据一起存储,RCFile、ORCFile都是该存储方式,读取数据时可以跳过不需要的列
相关文章
相关标签/搜索