mapreduce shuffle

一、 Map端shuffle 输入数据和执行Map任务 通过自定义Map,将输入<key,value>转换成新的<key,value>并输出 写入缓存 每个map任务都会分配一个缓存区(通过环形队列实现),默认100M,首先将map的输出写入缓存,当达到一定数量是会一次性批量写入磁盘,以减少磁盘IO操作 溢写(分区,排序,和并) 因为缓存区大小有限,为不影Map结果的写入操作,每当缓存区大小达到溢
相关文章
相关标签/搜索