spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

当采用随机数和扩容表进行join解决数据倾斜的时候,就代表着,你的之前的数据倾斜的解决方案,都没法使用。 这个方案是没办法彻底解决数据倾斜的,更多的,是一种对数据倾斜的缓解。 原理,其实在上一讲,已经带出来了。 步骤: 1、选择一个RDD,要用flatMap,进行扩容,将每条数据,映射为多条数据,每个映射出来的数据,都带了一个n以内的随机数,通常来说,会选择10。 2、将另外一个RDD,做普通的m
相关文章
相关标签/搜索