【Spark】RDD的依赖关系

时间 2021-01-08

原文原文链接

文章目录 Spark Lineage(血统) 窄依赖宽依赖 DAG 任务划分 Spark Lineage(血统) Lineage利用内存加快数据加载，在其它的In-Memory类数据库或Cache类系统中也有实现。Spark的主要区别在于它采用血统（Lineage）来时实现分布式运算环境下的数据容错性（节点失效、数据丢失）问题。RDD Lineage被称为RDD运算图或RDD依赖关系图，是RDD