运行spark——7. RDD依赖、stage划分、checkpoint

RDD依赖: 窄依赖:每一个父RDD的分区最多被子RDD的一个分区使用 宽依赖:每一个父RDD的分区被多个子RDD分区依赖   RDD依赖的作用: 血统(Lineage)会记录RDD的元数据和转换行为, 以便恢复丢失的分区。   stage划分: DAG(有向无环图):RDD的一系列转换组成了DAG 划分stage的目的是生成任务,每个stage对应一种任务, 划分stage的关键因素为是否发生了
相关文章
相关标签/搜索