Hadoop渐进五:Hadoop I/O(Sequence, Map, Set...)

一、简述 Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计,不适合于小文件的存储与处理,这里的小文件主要是size远小于一个block size(默认64M)的文件。为什么呢?首先,每一个小文件都要占用一个block(默认64M),会造成大量磁盘空间的浪费;其次,小文件越多,对namenode的内存压力就越大。 面对这样的情况,我们需要提供小文件整理容器,将这些小文件组织
相关文章
相关标签/搜索