MR过程+shuffle过程

MapReduce的执行流程 Shuffle过程 Map的输出结果首先被缓存到内存,当环状缓冲区达到80% (默认大小为100MB),就会启动溢写(Spill)操作,当前启动溢写操作时,首先把缓存中的数据进行分区(partition。默认对key hash后再除以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力),对每个分区的数据进行排序和合并。之后再写入到磁盘中,
相关文章
相关标签/搜索