shuffle机制

时间 2020-03-08

标签 shuffle 机制繁體版

原文原文链接

map的数量不是基于blk大小决定的；
基于中间抽象概念，叫切片；
一个切片对应一个map进程；
是一个逻辑概念；
大文件，一个切片对应一个blk便可，对于小文件，能够对应多个blk，即便去其余datanode获取，那么文件很小，不会影响太多时间传输；

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------node

shuffle

某一个具体的map task进程，输出数据是如何缓存、中间是如何排序、如何分组的，而后转发给reduce，这个过程就叫作shullfe过程。shuffle是分布到整个集群协做运行的缓存

partitions实现分组spa

buffer缓存blog

inputSplit切片逻辑产生一个map 进程

map结果输出k-v形式

k-v放到本身机器的内存中buffer，buffer缓冲区大小由配置文件指定，默认100M，

buffer会把溢出数据放到磁盘中，分组，排序，合并（合并时候同一组还须要从新排序，由于每一个分组中的数据排序之间存在135，268）

给到reduce后，依然须要分组排序合并

shuffle机制

shuffle

MRAPPMaster的任务监控与调度机制