spark性能调优之重构RDD架构，RDD持久化

时间 2019-12-10

标签 spark 性能 rdd 架构持久栏目 Spark 繁體版

原文原文链接

当第一次对RDD2执行算子，获取RDD3的时候，就会从RDD1开始计算，就是读取HDFS文件，而后对RDD1执行算子，获取到RDD2，而后再计算，获得RDD3 数组默认状况下，屡次对一个RDD执行算子，去获取不一样的RDD；都会对这个RDD以及以前的父RDD，所有从新计算一次；读取HDFS->RDD1->RDD2-RDD4 这种状况，是绝对绝对，必定要避免的，一旦出现一个RDD重复计算的状况，就

>>阅读原文<<