MapReduce中使用SequenceFile的方式上传文件到集群中

HDFS上不适合存储小文件,因为如果有很多的小文件,上传到HDFS集群,每个文件都会对应一个block块,一个block块的大小默认是128M,对于很多的小文件来说占用了非常多的block数量,就会影响到内存的消耗, MapReduce处理这些文件的话也是需要很多的Map来处理. HDFS提供的小文件的解决方案可以使用SequenceFile和MapFile: 如果存在大量的小数据文件,可以使用S
相关文章
相关标签/搜索