Spark 性能优化：重构 RDD 及 RDD 持久化

时间 2019-12-13

标签 spark 性能优化 rdd 持久栏目 Spark 繁體版

原文原文链接

在写 Spark 的应用时，应该尽可能避免这两种状况：性能

1，几个功能明明能够在一个算子操做中完成，为了代码清晰，把这个算子拆分红多个算子进行操做。这种操做每每会增长不少的性能开销。code

2，出现公用的 RDD 时候不作持久化操做，好比：cdn

RDD2 是会被复用的 RDD，默认状况下，第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2blog

而后用 RDD2 生成 RDD4 的时候，还会走一遍 HDFS -> RDD1 -> RDD2it

这样就形成了重复计算。io

针对上述的两种状况咱们应该这样作：class

1，可以在一个算子中操做完成的功能不用拆分到多个算子中去操做；lazyload

2，在要复用 RDD 的时候必定要对复用的那个 RDD 作持久化操做。gc