shuffle阶段作了什么?什么是shuffle阶段?

直白点来讲map输出到reduce输入的中间过程就是shuffle阶段,那么如今就来讲下shuffle作了什么:线程 (1)collect阶段:将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区,排序 保存的是 key/value,Partition 分区信息等。内存 (2)spill阶段:当内存中的数据量达到必定的阀值的时候,就会将数据写it 入本地磁盘,在将数据写入磁盘以前须要
相关文章
相关标签/搜索