Spark开发调优

时间 2020-12-25

原文原文链接

对多次使用的RDD进行持久化避免重复创建同样的RDD 对于同一份数据，只应该创建一份RDD，不应创建多个RDD来代表同样的数据尽可能复用同一个RDD 尽量避免使用shuffle类算子如果有可能的话，要尽量避免使用shuffle类算子。因为Spark作业运行过程中，最消耗性能的地方就是shuffle过程。shuffle过程，简单来说，就是将分布在集群中多个节点上的同一个key，拉取到同一个节点