Spark性能调优(三)---在实际项目中重构RDD架构以及RDD持久化

一、为什么要重构RDD,持久化RDD ①为什么需要重构RDD 如上图所示, RDD2和RDD3是RDD1执行相同的算子得到的RDD,是相同的RDD。对于这种需要被重复使用,差不多的RDD,可以抽取为一个共同的RDD,供后面的RDD计算时,重复使用。 ②为什么持久化RDD 如上图所示,如果没有持久化RDD,那么在获取RDD3和RDD4的时候,都需要从HDFS读取文件,转换成RDD1,然后转换成RDD
相关文章
相关标签/搜索