Spark两个rdd join发生数据倾斜的典型情况

有两个RDD,分别是RDDA[Ka, Va] 和 RDDB[Kb, Vb],数据量都比较大,在做join操作的时候,可以看出,shuffle read 有严重的数据倾斜现象,导致拖慢了整个 job 的速度: 其实从上述问题中,可以看出来,index=0 的 task 必然有问题,如果不熟悉自己的数据分布的话,很容易误以为自己的数据分布是均匀的,所以建议打印出来前十个 key 出来看看。 否则就可能
相关文章
相关标签/搜索