如何在Hadoop中处理小文件-续

Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件,以及常见的处理方法。这里Fayson再补充一篇文章进行说明。git   HDFS中太多的小文件每每会带来性能降低以及扩展性受限问题,为了不这个问题,咱们通常须要控制每一个文件尽量的接近HDFS block大小好比256MB,或者是block size的几倍。githu
相关文章
相关标签/搜索