Spark数据倾斜-采样倾斜key并分拆join操作-详细图解与代码

时间 2021-01-09

原文原文链接

本文修改自[1]中的方案六。下面的方案简述来自[1] 方案适用场景：两个RDD/Hive表进行join的时候，如果数据量都比较大，无法采用“解决方案五”，那么此时可以看一下两个RDD/Hive表中的key分布情况。如果出现数据倾斜，是因为其中某一个RDD/Hive表中的少数几个key的数据量过大，而另一个RDD/Hive表中的所有key都分布比较均匀，那么采用这个解决方案是比较合适的。方案

>>阅读原文<<