Hive优化系列之Map与Reduce数量选择

时间 2019-12-05

标签 hive 优化系列 map reduce 数量选择栏目 Hadoop 繁體版

原文原文链接

注意，如下操做都是针对非分桶表node map数量算法算法 MapTask的个数=输入文件总大小/分片尺寸，我的理解就是输出的文件数量缘由：系统对输入的源文件依照Block的尺寸分片，并在执行Job时安排一个Map Task处理一个Block的或者由mapred.map.task数量决定，可是若是这个参数不合理的话，会失效小文件不分片压缩文件没法被切分优化建议优化缘由 map数量过少

>>阅读原文<<