MapReduce数据发生倾斜(二)

数据分布 正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。 产生原因 Mapreduce程序在运行的时候,运行了大部分,但是还有部分reduce还在运行,甚至长时间运行,最终导致整个程序运行时间很长才结束。 造成这种现象的主要原因 reduce程序处理的key的条数比其他key的
相关文章
相关标签/搜索