Hadoop的MAPReduce之shuffle

1. shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); shuffle具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行排序; 2. shuffle缓存流程: shuffle是MapReduce处理流程中的一个过程,每一个处理步骤是分散在各个maptask和reducetask节点上完成的,整体来看,分为三个操作:
相关文章
相关标签/搜索