Spark性能调优-----算子调优（五）reduceByKey本地聚合

时间 2021-01-19

原文原文链接

reduceByKey相较于普通的shuffle操作一个显著的特点就是会进行map端的本地聚合，map端会先对本地的数据进行combine操作，然后将数据写入给下个stage的每个task创建的文件中，也就是在map端，对每一个key对应的value，执行reduceByKey算子函数。reduceByKey算子的执行过程如图2-8所示：使用reduceByKey对性能的提升如下： 1.本地聚合