------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------node
某一个具体的map task进程,输出数据是如何缓存、中间是如何排序、如何分组的,而后转发给reduce,这个过程就叫作shullfe过程。shuffle是分布到整个集群协做运行的缓存
partitions实现分组spa
buffer缓存blog
- inputSplit切片逻辑产生一个map 进程
- map结果输出k-v形式
- k-v放到本身机器的内存中buffer,buffer缓冲区大小由配置文件指定,默认100M,
- buffer会把溢出数据放到磁盘中,分组,排序,合并(合并时候同一组还须要从新排序,由于每一个分组中的数据排序之间存在135,268)
- 给到reduce后,依然须要分组排序合并