spark调优的一些点

时间 2021-01-02

原文原文链接

1.RDD操作的优化不要创建数据相同的RDD两次（多次）通常创建一个RDD（读取HDFS或者Hive中的文件），然后对这个RDD做一些算子操作，得到下一个RDD，如果同一个RDD创建了两遍（数据相同），就会从磁盘中读取两次，会浪费大量的时间和性能。 RDD要尽可能的复用如果需要RDD中的部分值，不需要创建一个新的RDD，这样会多使用一次spark算子。比如需要tuple中的第二个值，可以用