Hadoop关于处理大量小文件的问题和解决方法

小 文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。若是在HDFS中存储小文件,那么在HDFS中确定会含有许许多多这样的小文件(否则就不会用hadoop了)。 而 HDFS的问题在于没法颇有效的处理大量小文件。 任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在 namenode的内存中,没一个object占用150 bytes的内存
相关文章
相关标签/搜索