Spark性能调优-----算子调优（三）filter与coalesce的配合使用

时间 2021-01-16

原文原文链接

在Spark任务中我们经常会使用filter算子完成RDD中数据的过滤，在任务初始阶段，从各个分区中加载到的数据量是相近的，但是一旦进过filter过滤后，每个分区的数据量有可能会存在较大差异，如图2-6所示：根据图2-6我们可以发现两个问题：每个partition的数据量变小了，如果还按照之前与partition相等的task个数去处理当前数据，有点浪费task的计算资源；每个partit

>>阅读原文<<