MapReduce Shuffle过程分析

Hadoop的核心就是HDFS和MapReduce,而MapReduce的核心又是Shuffle,Shuffle的主要工作是从Map结束到Reduce开始之间的过程。如图: 可以看到,shuffle阶段又可以分为Map端输出时的shuffle和Reduce端输入的shuffle。 一、Map端输出的shuffle 整个流程我分了四步。简单些可以这样说,每个map task都有一个内存缓冲区,存储着
相关文章
相关标签/搜索