MR数据倾斜解决方案

1.数据倾斜 由于mapreduce程序是按照key的hash值进行分区的 , 如果某些单词特别多 , 特别多的单词就会被分到同一个reduce去处理 , 有些reducere任务处理的数据量小 有些reduce任务处理的数据量非常大 只有所有的reduce任务完成以后job才算完成 , 造成job的工作时间变长 [任务分配不均匀] 1 将key打散 在key上添加随机数 根据 reducetas
相关文章
相关标签/搜索