Shuffle机制详解

Shuffle机制 Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。如图: 具体Shuffle过程详解,如下: 1)MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中 2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 3)多个溢出文件会被合并成大的溢出文件 4)在溢出过程及合并的过程中,都要调用Partitioner进行分区和针对key进行排序 5
相关文章
相关标签/搜索