spark性能调优之重构RDD架构,RDD持久化

当第一次对RDD2执行算子,获取RDD3的时候,就会从RDD1开始计算,就是读取HDFS文件,而后对RDD1执行算子,获取到RDD2,而后再计算,获得RDD3 数组 默认状况下,屡次对一个RDD执行算子,去获取不一样的RDD;都会对这个RDD以及以前的父RDD,所有从新计算一次;读取HDFS->RDD1->RDD2-RDD4 这种状况,是绝对绝对,必定要避免的,一旦出现一个RDD重复计算的状况,就
相关文章
相关标签/搜索