spark调优的一些点

1.RDD操作的优化 不要创建数据相同的RDD两次(多次) 通常创建一个RDD(读取HDFS或者Hive中的文件),然后对这个RDD做一些算子操作,得到下一个RDD,如果同一个RDD创建了两遍(数据相同),就会从磁盘中读取两次,会浪费大量的时间和性能。 RDD要尽可能的复用 如果需要RDD中的部分值,不需要创建一个新的RDD,这样会多使用一次spark算子。 比如需要tuple中的第二个值,可以用
相关文章
相关标签/搜索