spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

时间 2021-01-04

原文原文链接

当采用随机数和扩容表进行join解决数据倾斜的时候，就代表着，你的之前的数据倾斜的解决方案，都没法使用。这个方案是没办法彻底解决数据倾斜的，更多的，是一种对数据倾斜的缓解。原理，其实在上一讲，已经带出来了。步骤： 1、选择一个RDD，要用flatMap，进行扩容，将每条数据，映射为多条数据，每个映射出来的数据，都带了一个n以内的随机数，通常来说，会选择10。 2、将另外一个RDD，做普通的m

>>阅读原文<<