Spark项目实战-数据倾斜解决方案之原理以及现象分析

时间 2021-01-16

原文原文链接

一、数据倾斜的原理在执行shuffle操作的时候，大家都知道是按照key来进行values的数据的输出、拉取和聚合的。同一个key的values，一定是分配到一个reduce task进行处理的。假设多个key对应的values，总共是90万。但是问题是可能某个key对应了88万数据，key-88万values，分配到一个task上去面去执行。另外两个task，可能各分配到了1万数据，可能是数百

>>阅读原文<<