MapReduce的shuffle过程理解

首先了解什么是shuffle过程 简单的来说就是map的输出 作为reduce的输入的过程称为shuffle流程 1、根据文件的切片个数启动相应的maptask任务 2、maptask任务 逐行读取 对应文件中的内容 3、将读取到的内容,标记好分区号后 输入到环形缓冲区中(环形缓冲区大小默认100m) 4、当环形缓冲区中的内容达到阈值(80%),将数据溢写到磁盘中 5、溢写之前 将数据进行排序,按
相关文章
相关标签/搜索