Spark性能调优:RDD的复用以及RDD持久化

避免建立重复的RDD 一般来讲,开发一个Spark做业时,首先是基于某个数据源(好比Hive表或HDFS文件)建立一个初始的RDD;接着对这个RDD执行某个算子操做,而后获得下一个RDD;以此类推,循环往复,直到计算出最终咱们须要的结果。在这个过程当中,多个RDD会经过不一样的算子操做(好比map、reduce等)串起来,这个“RDD串”,就是RDD lineage,也就是“RDD的血缘关系链”。
相关文章
相关标签/搜索