Spark RDD的依赖于DAG的工作原理

时间 2021-08-15

原文原文链接

目录 RDD的依赖 RDD的宽窄依赖 DAG工作原理划分Stage的原因 Spark Shuffler过程在进行本篇之前，如果还有对Spark的一些基础概念不太明白的可以参考一下这篇博文： Spark核心组件、运行架构 RDD的依赖 RDD是一种弹性分布式数据集，我们以图示的形式来展示一下它的原理： RDD的宽窄依赖 Lineage:血统、遗传 RDD最重要的特性之一，保存了RDD的依赖关系；