groupByKey与reduceByKey区别

时间 2021-01-13

原文原文链接

用spark所写的程序中shuffer操作非常耗时，所以会有专门针对这个shuffer的优化，来提高效率，但是有时你必须进行一些带有shuffer的操作的算子，比如groupByKey和reduceByKey。这两个都是针对于元祖（key，value）类型的数据进行重排与聚合操作。 groupByKey：它是将RDD中相同的key值得数据（value）合并成为一序列，只能输出相同key值得序列。