MapReduce:详解Shuffle过程

Shuffle过程,也称Copy阶段。reduce task从各个map task上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定的阀值,则写到磁盘上,否则直接放到内存中。 官方的Shuffle过程如上图所示,不过细节有错乱,官方图并没有说明partition、sort和combiner具体作用于哪个阶段。 注意:Shuffle过程是贯穿于map和reduce两个过程的! Hadoop的集
相关文章
相关标签/搜索