Spark 开发调优(一)

Spark性能优化 - 开发调优 优化一 避免建立重复的RDD 一般来讲,咱们在开发一个Spark做业时,首先是基于某个数据源(好比Hive表或HDFS文件)建立一个初始的RDD;接着对这个RDD执行某个算子操做,而后获得下一个RDD;以此类推,循环往复,直到计算出最终咱们须要的结果。在这个过程当中,多个RDD会经过不一样的算子操做(好比map、reduce等)串起来,这个“RDD串”,就是RDD
相关文章
相关标签/搜索