Spark之数据倾斜(二)

数据倾斜解决方案:         (四)提高shuffle操作的reduce并行度         一个简单的方法,可以一定程度的缓解数据倾斜,但是,它治标不治本。将reduce task的数量变多,可以让每个reduce task分配到更少的数据量,这样的话,也许就可以缓解或者甚至是基本解决掉数据倾斜的问题。这种方案实施也简单,调用shuffle算子,比如groupByKey、countByK
相关文章
相关标签/搜索