Hadoop-MapReduce Shuffle原理及调优

Shuffle过程图: Map端: 1.Collect: Map端不是直接把数据写入本地磁盘,而是先写入一个环形缓冲区, 每个Map任务都有一个区,由io.sort.mb属性控制缓冲区大小。 2.sort: 将数据按照分区分好,并且在分区内实现按Key升序排序 2*.Combiner: 若有Combiner,在上面分区内sort的输出结果基础上再执
相关文章
相关标签/搜索