hadoop-mapreduce2-原理

时间 2021-01-05

原文原文链接

运行原理源码 hadoop-2.6.0-cdh5.7.0-src 问题为什么 map stage 需要进行排序？ MR在reduce阶段需要分组，将key相同的放在一起进行规约，为了达到该目的，有两种算法：hashmap和sort，前者太耗内存，而排序通过外排可对任意数据量分组，只要磁盘够大就行。map端排序是为了减轻reduce端排序的压力。在spark中，除了sort的方法，也提供hash