Spark源码解读(6)——Shuffle过程

时间 2019-12-06

原文原文链接

Shuffle应该说是Spark Core中较为复杂的部分，本文主要从一个最简单的WordCount例子出发分析Spark的Shuffle过程：java 1，概述node sc.parallelize(1 to 1000).map(i=>(i%5,1)).reduceByKey(_+_).collect() 计算过程当中会分红两个Stage，以下图所示：shell 每一个Stage由多个Task组