MapReduce 之 Shuffle 的详细流程

主要流程简介: 先对数据进行切片,然后将数据传递给map,map的输出是内存缓冲区(圆形缓冲区),内存缓冲 区默认大小是100M,当达到80%的时候将数据溢写到本地,剩余20%用于继续获取数据,在溢写 到磁盘的时候会执行parti tion(分区) 和 sort (排序), 然后对文件进行合并操作,合并完成之后 reduceTask 会去启动线程去mapTask拉取数据,然后进行文件合并,并进行排
相关文章
相关标签/搜索