spark源码阅读——5. shuffle

shuffle是什么: 分布式计算中,每个节点只计算部分数据,也就是只处理一个分片,那么要想求得某个key对应的全部数据,比如reduceByKey、groupByKey,那就需要把相同key的数据拉取到同一个分区,原分区的数据需要被打乱重组,这个按照一定的规则对数据重新分区的过程就是Shuffle(洗牌)。 Shuffle是连接Map和Reduce之间的桥梁,描述的是数据从Map端到Reduce
相关文章
相关标签/搜索