利用MapReduce进行二次排序--附例子

首先先来明确几个概念:  1.分区-partition                 1)分区(partition):                              默认采起散列值进行分区,但此方法容易形成 “ 数据倾斜 ” (大部分数据分到同一个reducer中,影响运行效率);                       因此须要自定义partition;            
相关文章
相关标签/搜索