MapReduce二次排序(secondary sort)实战

接触过mapreduce的同窗都知道,为了将key值相同的record放在一块儿,分配给指定reducer,shuffle阶段会按照key值排序。 然而在某些状况下,咱们须要同时对value排序,A同窗立马提出了以下解决方案:reduce的时候,将同一个key的全部value都存在一个list中,最后再进行排序,这个方案在数据量小时没有问题,但是reducer的内存是有限的,当数据规模很大时,某个
相关文章
相关标签/搜索