菜鸟的Spark 源码学习之路 -8 RDD-依赖关系

RDD之间的依赖关系,是spark stage划分的重要依据。总所周知,RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency),宽依赖(wide dependency)。 stage的划分就在宽依赖和窄依赖的边界处,一旦RDD间存在宽依赖,则会有shuffle产生。 本文我们就来看一下spark如何抽象RDD之间的依赖关系。 1. 窄依赖 Narrow
相关文章
相关标签/搜索