spark中的血统

为什么会有血统? Lineage定义 Lineage:用来描述不同RDD之间的依赖关系。 RDD在Lineage方面主要分为两种:窄依赖和宽依赖。 那什么是窄依赖和宽依赖呢? 窄依赖:父RDD中的每个分区最多被子RDD的一个分区使用。 宽依赖:父RDD中的每个分区被子RDD中的多个分区使用。 血统解决了什么问题? 在spark的容错机制中,当一个节点宕机了,进行容错恢复时, 对窄依赖来讲:计算时只
相关文章
相关标签/搜索