MapReduce执行流程之shuffle机制

介绍 shuffle机制是MapReduce执行过程中非常重要的一个流程。它处于Map阶段和Reduce阶段之间,它的具体处理步骤分布MapTask阶段和ReduceTask阶段。按照shuffle的机制,他可以将map阶段处理完成的数据重新排列组合(内部其实是在分区、排序、预聚合),最后将数据交给reduceTask处理。Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率,原则
相关文章
相关标签/搜索