Spark分布式计算原理(宽窄依赖，DAG，stage划分，shuffle过程，Spark计算引擎原理)

时间 2021-08-15

标签 spark 栏目 Spark 繁體版

原文原文链接

文章目录 1、RDD依赖 1.1 依赖关系 1.2 窄依赖 1.3 宽依赖 1.4 宽依赖对比窄依赖 2、DAG 3、stage划分 3.1 为什么要写在本地 3.2 移动算子而不是移动数据 4、Spark Shuffle过程 5、Spark计算引擎原理 1、RDD依赖 Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系

>>阅读原文<<