Spark性能调优--调度与分区优化

时间 2019-12-05

标签 spark 性能调度分区优化栏目 Spark 繁體版

原文原文链接

1.小分区合并问题在用户使用Spark的过程当中，经常会使用filter算子进行数据过滤。而频繁的过滤或者过滤掉的数据量过大就会产生问题，形成大量小分区的产生（每一个分区数据量小）。因为Spark是每一个数据分区都会分配一个任务执行，若是任务过多，则每一个任务处理的数据量很小，会形成线程切换开销大，不少任务等待执行，并行度不高的问题，是很不经济的。java 例如：缓存 val rdd2 = rd

>>阅读原文<<