Spark分布式计算原理(宽窄依赖,DAG,stage划分,shuffle过程,Spark计算引擎原理)

文章目录 1、RDD依赖 1.1 依赖关系 1.2 窄依赖 1.3 宽依赖 1.4 宽依赖对比窄依赖 2、DAG 3、stage划分 3.1 为什么要写在本地 3.2 移动算子而不是移动数据 4、Spark Shuffle过程 5、Spark计算引擎原理 1、RDD依赖 Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系
相关文章
相关标签/搜索