浅谈Hadoop shuffle

map task部分 1.map读取split输入数据。 2.map处理数据生成key-value。 3.key-value存入内存中的buffer。 4.buffer默认100M(io.sort.mb),当buffer中数据很多超过一个阀值(默认0.8,io.sort.spill.percent),后台将有一个线程(spill)将buffer中数据写入磁盘,存入指定地址(mapred.local
相关文章
相关标签/搜索