MapReduce的shuffle工作原理讲解

mapReduce首先是由inputFormat把数据从hdfs里面取出来对数据进行切片操作,只是逻辑上的切分,然后由record reader(记录阅读器)根据逻辑分片分好的位置以及长度信息去底层具体的hdfs各个块把相关的分片给读出来。 读出来以keyValue的形式输出给map任务。具体的map任务是由程序员自己去写业务逻辑。map任务结束后 以键值对的形式输出给reduce,map任务结束
相关文章
相关标签/搜索