Spark---性能调优之重构RDD架构以及RDD持久化

1、当第一次对RDD2执行算子,获取RDD3的时候,就会从RDD1开始计算,就是读取HDFS文件,然后对RDD1执行算子,获取 到RDD2,然后再计算,得到RDD3。 2、默认情况下,多次对一个RDD执行算子,去获取不同的RDD;都会对这个RDD以及之前的父RDD,全部重新计算一次;读取HDFS->RDD1->RDD2-RDD4 这种情况,是绝对绝对,一定要避免的,一旦出现一个RDD重复计算的情况
相关文章
相关标签/搜索