MapReduce切片(Split)和分区(Partitioner)

MapReduce中,分片、分区、排序和分组(Group)的关系图:   分片大小 对于HDFS中存储的一个文件,要进行Map处理前,需要将它切分成多个块,才能分配给不同的MapTask去执行。 分片的数量等于启动的MapTask的数量。默认情况下,分片的大小就是HDFS的blockSize。 Map阶段的对数据文件的切片,使用如下判断逻辑: protected long computeSpl
相关文章
相关标签/搜索