Hadoop-MapReduce Shuffle原理及调优

时间 2021-01-18

原文原文链接

Shuffle过程图： Map端： 1.Collect： Map端不是直接把数据写入本地磁盘，而是先写入一个环形缓冲区，每个Map任务都有一个区，由io.sort.mb属性控制缓冲区大小。 2.sort：将数据按照分区分好，并且在分区内实现按Key升序排序 2*.Combiner：若有Combiner，在上面分区内sort的输出结果基础上再执