149、Spark核心编程进阶之Shuffle相关

shuffle操作原理 是spark中一些特殊的算子操作会触发的一种操作 shuffle操作,会导致大量的数据在不同的机器和节点之间进行传输,因此也是spark中最复杂、最消耗性能的一种操作 我们可以通过reduceByKey操作作为一个例子,来理解shuffle操作 先看图 shuffle操作原理.png reduceByKey算子会将上一个RDD中的每个key对应的所有value都聚合成一个v
相关文章
相关标签/搜索