[大数据]连载No14之数据倾斜解决办法之双重聚合

背景:连个rdd进行join关联时,一方rdd存在大量数据倾斜的key,如果通过reduceBykey,设置分区数为10,由于相同key,占用数据比例大,其余9个task可能是至于空闲状态,而另外一个task却要处理大量数据,导致任务分配不均匀 解决办法:双重聚合 思路: 1、通过抽样,排序,take前几,找到导致数据倾斜的key 2、数据倾斜rdd,倾斜key加随机前缀,比如随机前缀为5 3、另
相关文章
相关标签/搜索