Spark性能调优：RDD的复用以及RDD持久化

时间 2020-05-08

标签 spark 性能 rdd 以及持久栏目 Spark 繁體版

原文原文链接

避免建立重复的RDD 一般来讲，开发一个Spark做业时，首先是基于某个数据源（好比Hive表或HDFS文件）建立一个初始的RDD；接着对这个RDD执行某个算子操做，而后获得下一个RDD；以此类推，循环往复，直到计算出最终咱们须要的结果。在这个过程当中，多个RDD会经过不一样的算子操做（好比map、reduce等）串起来，这个“RDD串”，就是RDD lineage，也就是“RDD的血缘关系链”。

>>阅读原文<<