Spark程序优化及常见报错问题分析

在实际的基于Spark平台的大数据分析项目中,为提高程序的运行效率,对程序进行优化是必不可少的,本文基于个人在大数据项目中使用Spark进行编程实现的实践经历,针对Spark程序优化问题进行总结,具体内容如下所述。 1. 代码层优化 (1)避免创建多个相同的RDD对象 (2)DAG划分的多个stage中存在相同的RDD对象,则需要将该RDD对象进行缓存,避免重复计算。 (3)代码中存在大小表关联逻
相关文章
相关标签/搜索