Hadoop的shuffle过程

首先上官方图: 然后做一个简单的流程解释(以wordcount为例): 里面涉及到的点有环形缓冲区 详细说明: 以wordcount为例,假设有5个map和3个reduce: map阶段 1、在map task执行时,它的输入数据来源于HDFS的block,当然在MapReduce概念中,map task只读取split。Split与block的对应关系可能是多对一,默认是一对一。 2、在经过ma
相关文章
相关标签/搜索