MR -- Shuffle机制

1、流程详解 Map 方法之后,Reduce 方法之前的数据处理过程被称为 Shuffle,具体流程为: (1) MapTask 收集 map() 方法输出的 kv 对,放到内存缓冲区中。 (2) 从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件。 (3) 多个溢出文件会被合并成大的溢出文件。 (4) 在溢出过程及合并的过程中,都要调用 Partitioner 进行分区和针对 key 进行排序
相关文章
相关标签/搜索