MAP/REDUCE-shuffle流程简单概述

我简单地将shuffle流程分成以下两部分: map task 程序会根据InputFormat将输入文件分割成splits,每个split会作为一个map task的输入,每个map task会有一个内存缓冲区,输入数据经过map阶段处理后的中间结果会写入内存缓冲区(环形缓冲区,这个暂时就不深入了),并且决定数据写入到哪个partitioner,当写入的数据到达内存缓冲区的的阀值(默认是0.8)
相关文章
相关标签/搜索