MapReduce Shuffle过程

以下1、2、3点是map端的shuffle,4、5、6是reduce端的shuffle: map任务出来的数据会先写到环形缓冲区,数据在进入缓冲区之前是(k,v)类型,进入缓冲区之后就会变成(k,v,p)p是分区号。当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,每写一次磁盘就会生成一个文件,这个过程叫spill。 写入磁盘之前会先发生分区和排序,分区默认是根据哈希算法排
相关文章
相关标签/搜索