Hive优化系列之Map与Reduce数量选择

注意,如下操做都是针对非分桶表node map数量算法 算法 MapTask的个数=输入文件总大小/分片尺寸,我的理解就是输出的文件数量 缘由:系统对输入的源文件依照Block的尺寸分片,并在执行Job时安排一个Map Task处理一个Block的 或者由mapred.map.task数量决定,可是若是这个参数不合理的话,会失效 小文件不分片 压缩文件没法被切分 优化建议 优化缘由 map数量过少
相关文章
相关标签/搜索