Spark---性能调优之重构RDD架构以及RDD持久化

时间 2020-12-25

原文原文链接

1、当第一次对RDD2执行算子，获取RDD3的时候，就会从RDD1开始计算，就是读取HDFS文件，然后对RDD1执行算子，获取到RDD2，然后再计算，得到RDD3。 2、默认情况下，多次对一个RDD执行算子，去获取不同的RDD；都会对这个RDD以及之前的父RDD，全部重新计算一次；读取HDFS->RDD1->RDD2-RDD4 这种情况，是绝对绝对，一定要避免的，一旦出现一个RDD重复计算的情况

>>阅读原文<<