hive小文件合并思路

对于hdfs来说,系统的压力主要集中在namenode   如果在整个hadoop集群中存在大量的小文件,会消耗namenode的大量内存(大概146B一个元数据) 另一方面,如果小文件过多,有没有开启combine inputformat,在进行split分片的时候,会产生大量的map,严重影响到mapred的利用率。 定期对小文件进行清理就会变得很必要,比如我会每天有报表来获取hive中表的信
相关文章
相关标签/搜索