MapReduce:shuffle简单理解

如上图: Mapreduce shuffle流程, 从1到6是: 1、map会把写进来的数据写入缓存,写入过程中,会根据key值做一次partition,partition的方式可以自定义 2、之后,会进行一次排序,sort by key,方便后续的合并 3、map阶段的combine,会根据key,进行数据数据合并,例如: 4、合并后,数据开始溢写到磁盘,在map阶段完成前,会对溢写文件根据pa
相关文章
相关标签/搜索