MapReduce之Combiner合并

  • Combiner是MR程序中Mapper和Reducer以外的一种组件(本质是一个Reducer类)网络

  • Combinr组件的父类就是Reducerapp

  • Conbimer只有在驱动类里设置了以后,才会运行
    在这里插入图片描述线程

  • Combiner和Reducer的区别在于运行的位置:
    map----sort---copy---sort(shuffle阶段)---reducecode

  1. ==Combiner是在每个MapTask所在的节点运行
  2. Reducer是接收全局全部Mapper的输出结果==
  • Combiner的意义就是对每个MapTask的输出进行局部汇总,以减少网络传输量(减小磁盘IO和网络IO)orm

  • Cormbiner能多应用的前提是不能影响最终的业务逻辑,并且,Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。 Combiner用在加减操做的场景,不能用在乘除操做的场景
    好比:
    在这里插入图片描述blog

  • Combiner既有可能在MapTask端调用:
    ①每次溢写前会调用Combiner对溢写的数据进行局部合并
    ②在merge时,若是溢写的片断数>=3,若是设置了Combiner,Combiner会再次对
    数据进行Combine!排序

  • Combiner既有可能在ReduceTask端调用:
    ③shuffle线程拷贝多个MapTask同一分区的数据,拷贝后执行merge和sort,
    若是数据量过大,须要将部分数据先合并排序后,溢写到磁盘!
    若是设置了Combiner,Combiner会再次运行!图片

相关文章
相关标签/搜索