[大数据]连载No12之Spark Shuffle

本次知识点见目录 1:Spark计算会发生Shuffle的原因 大数据计算每一个key对应得value不一定在一个partition里,因为RDD是分布室的弹性的数据集 Shuffle 两阶段 1:Shuffle  Write 上一个stage的每个map task就必须保证将自己处理的当前分区的数据相同的key写入到一个分区文件中,可能就会写入多个不同的的分区文件中 2:shuffle Read
相关文章
相关标签/搜索