Spark开发调优

对多次使用的RDD进行持久化 避免重复创建同样的RDD 对于同一份数据,只应该创建一份RDD,不应创建多个RDD来代表同样的数据 尽可能复用同一个RDD 尽量避免使用shuffle类算子 如果有可能的话,要尽量避免使用shuffle类算子。因为Spark作业运行过程中,最消耗性能的地方就是shuffle过程。shuffle过程,简单来说,就是将分布在集群中多个节点上的同一个key,拉取到同一个节点
相关文章
相关标签/搜索