[大数据]连载No12之Spark Shuffle

时间 2021-07-14

原文原文链接

本次知识点见目录 1：Spark计算会发生Shuffle的原因大数据计算每一个key对应得value不一定在一个partition里，因为RDD是分布室的弹性的数据集 Shuffle 两阶段 1：Shuffle Write 上一个stage的每个map task就必须保证将自己处理的当前分区的数据相同的key写入到一个分区文件中，可能就会写入多个不同的的分区文件中 2：shuffle Read