Shuffle机制

一个map task处理一个切片Split,切片是一个范围的数据,和blocksize大小没有必然关系。 1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。 2.写磁盘
相关文章
相关标签/搜索