hadoop MR的过程

map阶段 1.由InputSplitFormat对输入数据进行逻辑分片(FileInputFormat.class中的getSplits()方法),默认的分片大小是不大于blocksize的大小,不小于配置文件中mapred.min.split.size中定义的大小,每一个分片分配一个map任务。数据按行被解析成key/value键值对,key为每行首字母在文件中的偏移量。 2.每一个map任务
相关文章
相关标签/搜索