spark数据倾斜解决方案（三）提升shuffle操做reduce并行度

时间 2019-12-11

标签 spark 数据倾斜解决方案提升 shuffle reduce 并行栏目 Spark 繁體版

原文原文链接

数据倾斜解决方案提升shuffle操做reduce并行度当咱们设置spark.default.parallelism，100 咱们假设Map端有100个task，而后reduce端有100个task 而后此时发生数据倾斜了，一个task有10万数据，其余task都只有10条数据假设第一个方案和第二个方案都不适合作！第三个方案，提升shuffle操做的reduce并行度将reduce t

>>阅读原文<<

spark数据倾斜解决方案（三） 提升shuffle操做reduce并行度

spark数据倾斜解决方案（三）提升shuffle操做reduce并行度