Hadoop7days-4 shuffle

Shuffle是MapReduce的心脏。 如上图看到的,数据的流程是Map--->shuffle--->Reduce.但是,shuffle的具体过程是怎样的呢? MAP端:     Map的输出并不是简单的写到磁盘,等待Reduce的获取。每一个map都有一个环形内存缓冲区,默认大小为100M,当其中的缓冲内容达到阈值(80%),后台线程便把其中的内容溢写到磁盘(在写磁盘过程中,map输出继续写
相关文章
相关标签/搜索