spark的shuffle(hash shuffle and sort shuffle)

可以对比hadoop shuffle        spark是对mapreduce的封装 SparkShuffle: SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value。 问题:聚合之前,每一个key对应的val
相关文章
相关标签/搜索