Spark调优

Spark调优: 总共分为四点: 1.开发调优 2.资源调优 3.数据倾斜 4.shuffle 1.开发调优 1)避免创建重复的RDD(不包含数据,抽象描述) 如果是需要对一个文件进行多次计算,那么注意,最好就只读一次。RDD:不可变可分区的弹性分布式数据集。 2)尽可能复用同一个RDD 3)对多次使用的RDD进行持久化(cache persist)(内存或磁盘) rdd1.map.reduce.
相关文章
相关标签/搜索