[大数据]连载No14之数据倾斜解决办法之双重聚合

时间 2020-12-25

原文原文链接

背景：连个rdd进行join关联时，一方rdd存在大量数据倾斜的key,如果通过reduceBykey，设置分区数为10，由于相同key,占用数据比例大，其余9个task可能是至于空闲状态，而另外一个task却要处理大量数据，导致任务分配不均匀解决办法：双重聚合思路： 1、通过抽样，排序，take前几，找到导致数据倾斜的key 2、数据倾斜rdd,倾斜key加随机前缀，比如随机前缀为5 3、另

>>阅读原文<<