Spark深入浅出之剖析 Spark Shuffle 原理

Shuffle 一般被翻译为数据混洗,是类 MapReduce 分布式计算框架独有的机制,也是这类分布式计算框架最重要的执行机制。本课时主要从两个层面讲解 Shuffle,主要分为: 逻辑层面、 物理层面。 逻辑层面主要从 RDD 的血统机制出发,从 DAG 的角度来讲解 Shuffle,另外也会讲解 Spark 容错机制,而物理层面是从执行角度来剖析 Shuffle 是如何发生的。 RDD 血统
相关文章
相关标签/搜索