reduceByKey和groupByKey性能分析比较

reduceByKey相较与普通的shuffle操作一个显著的特点就是会进行map端的本地聚合,map端会先在本地的数据进行Combiner操作,然后将数据写入给下一个stage的每个task创建的文件中,也就是在map端,对每一个key对应的value,执行reduceByKey算子函数,reduceByKey算子的执行过程如图所示   使用reduceByKey对性能的提升如下: 本地聚合后,
相关文章
相关标签/搜索