spark 大型项目实战(五十五):数据倾斜解决方案之使用随机key实现双重聚合

时间 2021-01-04

原文原文链接

使用随机key实现双重聚合 1、原理 2、使用场景（1）groupByKey （2）reduceByKey 比较适合使用这种方式；join，咱们通常不会这样来做，后面会讲三种，针对不同的join造成的数据倾斜的问题的解决方案。第一轮聚合的时候，对key进行打散，将原先一样的key，变成不一样的key，相当于是将每个key分为多组；先针对多个组，进行key的局部聚合；接着，再去除掉每个key的

>>阅读原文<<