Spark性能调优

开发调优 最基本的Spark性能优化,就是要优化你的代码。Spark中rdd内部的转换关系是一个DAG(有向无环图),只有出发了action 算子才开始计算。开始可以画出计算pipeline,写得多了脑子自然会形成计算的pipeline,在开发过程中,时时刻刻都要注意一些性能优化的基本原则。 原则一:避免创建重复的RDD,尽可能复用同一个RDD 对于同一份数据不要创建多个RDD,对不同的数据执行算
相关文章
相关标签/搜索