Hadoop 分区函数Partitioner

分区函数 MapReduce的使用者一般会指定Reduce任务和Reduce任务输出文件的数量(R)。咱们在中间key上使用分区函数来对数据进行分区,以后再输入到后续任务执行进程。一个缺省的分区函数是使用hash方法(好比,hash(key) mod R)进行分区。hash方法能产生很是平衡的分区。然而,有的时候,其它的一些分区函数对key值进行的分区将很是有用。好比,输出的key值是URLs,咱
相关文章
相关标签/搜索