Spark性能调优--调度与分区优化

1.小分区合并问题 在用户使用Spark的过程当中,经常会使用filter算子进行数据过滤。而频繁的过滤或者过滤掉的数据量过大就会产生问题,形成大量小分区的产生(每一个分区数据量小)。因为Spark是每一个数据分区都会分配一个任务执行,若是任务过多,则每一个任务处理的数据量很小,会形成线程切换开销大,不少任务等待执行,并行度不高的问题,是很不经济的。java 例如:缓存 val rdd2 = rd
相关文章
相关标签/搜索