Apache Spark——Shuffle 过程

时间 2020-12-29

原文原文链接

如果我们将 map 端划分数据、持久化数据的过程称为 shuffle write，而将 reducer 读入数据、aggregate 数据的过程称为shuffle read。那么我们来了解一下，在spark中，如何将shuffle write和shuffle read加入到逻辑或者物理执行图中并高效实现。 Shuffle write spark的shuffle通常使用HashMa