Spark性能优化

1、程序编写准则 准则一:从同一个数据源尽量只创建一个RDD,后续不同的业务逻辑可以复用该RDD,而不是基于该数据源重新创建一个新的RDD,这样Spark仅仅需要从HDFS上加载一次文件的内容就可以了。 准则二:如果需要对某个RDD进行多次不同的Transformation和Action操作,可以考虑对该RDD进行持久化操作,以避免Action操作触发作业时多次重复计算该RDD。 因为Spark程
相关文章
相关标签/搜索