hadoop之shuffle

时间 2021-01-13

原文原文链接

map端： 1、读取数据源 2、将数据切片（每片128M），切分成一个个的split 3、启动mapTask，mapTask个数和split个数一样，开始执行任务 4、mapTask将数据读入内存，存在一个内存环形缓冲区（mapreduce.task.io.sort.mb=100，可自定义）；当该区域中的容量到达80%（默认mapreduce.map.sort.sp