mr spark job 数据倾斜问题

数据倾斜:
partitionbykey 
缘由:
例如单词统计
hell0,1
hell0,1
hell0,1
hell0,1
world,1
...
在reducebykey的时候
根据key的hash值就行分区
相同key的就进入同一个分区
若是相同key不少的话,那么这些相同值都会在同一个分区里面hash

在reducebykey以前增长 一个 map 环节  该map 将 key加随机数
在reducebykey以后再加 一个 map 环节 该map将上个map 对key加的随机数 去除后 再聚合运算it

相关文章
相关标签/搜索