Hadoop中的几种文件格式

Hadoop中的文件格式大体上分为面向行和面向列两类:web 面向行:同一行的数据存储在一块儿,即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式,若是只须要访问行的一小部分数据,亦须要将整行读入内存,推迟序列化必定程度上能够缓解这个问题,可是从磁盘读取整行数据的开销却没法避免。面向行的存储适合于整行数据须要同时处理的状况。apache 面向列:整个文件
相关文章
相关标签/搜索