spark调优之数据倾斜以及解决

时间 2021-01-04

原文原文链接

（1）数据倾斜的介绍 1）数据倾斜的原因： Shuffle数据之后导致数据分布不均匀，但是所有节点的机器的性能都是一样的，程序也是一样的，就是数据量不一致，所以决定了task的执行时长就被数据量决定了。 2）定位数据倾斜的代码：数据倾斜发生在shuffle过程，有shuffle过程的算子有：distinct、groupByKey、reduceByKey、aggregateByKey、join、c