spark调优

1.代码调优: 避免创建重复的RDD 复用同一个RDD 对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略呢? 答: cache--MEMORY_ONLY;  persist:MEMORY_ONLY,MEMORY_ONLY_SER,MEMORY_AND_DISK_SER checkpoint:如果一个RDD的计算时间比较长或者计算起来比较复杂。一般将这个RDD的计算结果保存到HDFS上,
相关文章
相关标签/搜索