Spark性能调优----算子filter过后使用coalesce减少分区数量

时间 2021-01-16

原文原文链接

默认情况下，经过了这种filter之后，RDD中的每个partition的数据量，可能都不太一样了。（原本每个partition的数据量可能是差不多的）问题： 1、每个partition数据量变少了，但是在后面进行处理的时候，还是要跟partition数量一样数量的task，来进行处理；有点浪费task计算资源。 2、每个partition的数据量不一样，会导致后面的每个task处理每个part