shuffle机制

  • map的数量不是基于blk大小决定的;
  • 基于中间抽象概念,叫切片;
  • 一个切片对应一个map进程;
  • 是一个逻辑概念;
  • 大文件,一个切片对应一个blk便可,对于小文件,能够对应多个blk,即便去其余datanode获取,那么文件很小,不会影响太多时间传输;

 

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------node

shuffle

某一个具体的map task进程,输出数据是如何缓存、中间是如何排序、如何分组的,而后转发给reduce,这个过程就叫作shullfe过程。shuffle是分布到整个集群协做运行的缓存

partitions实现分组spa

buffer缓存blog

  1. inputSplit切片逻辑产生一个map 进程
  2. map结果输出k-v形式
  3. k-v放到本身机器的内存中buffer,buffer缓冲区大小由配置文件指定,默认100M,
  4. buffer会把溢出数据放到磁盘中,分组,排序,合并(合并时候同一组还须要从新排序,由于每一个分组中的数据排序之间存在135,268)
  5. 给到reduce后,依然须要分组排序合并

MRAPPMaster的任务监控与调度机制

相关文章
相关标签/搜索