浅谈Hadoop shuffle

时间 2021-01-20

原文原文链接

map task部分 1.map读取split输入数据。 2.map处理数据生成key-value。 3.key-value存入内存中的buffer。 4.buffer默认100M（io.sort.mb），当buffer中数据很多超过一个阀值（默认0.8,io.sort.spill.percent），后台将有一个线程（spill）将buffer中数据写入磁盘，存入指定地址（mapred.local