Spark之数据倾斜(三)

数据倾斜解决方案: (六)将reduce join转换为map join 对于join这种操作,不光是考虑数据倾斜的问题;即使是没有数据倾斜问题,也完全可以优先考虑。将reduce join转map join的技术,牺牲一点内存资源,不会发生shuffle操作,从根源上避免数据倾斜。  如果两个RDD要进行join,其中一个RDD必须是比较小的,broadcast出去那个小RDD的数据以后,就会在
相关文章
相关标签/搜索