MapReduce之Combiner合并

时间 2020-07-30

标签 mapreduce combiner 合并栏目 Hadoop 繁體版

原文原文链接

Combiner是MR程序中Mapper和Reducer以外的一种组件(本质是一个Reducer类)网络
Combinr组件的父类就是Reducerapp
Conbimer只有在驱动类里设置了以后，才会运行
线程
Combiner和Reducer的区别在于运行的位置：
map----sort---copy---sort(shuffle阶段)---reducecode

==Combiner是在每个MapTask所在的节点运行
Reducer是接收全局全部Mapper的输出结果==

Combiner的意义就是对每个MapTask的输出进行局部汇总，以减少网络传输量(减小磁盘IO和网络IO)orm
Cormbiner能多应用的前提是不能影响最终的业务逻辑，并且，Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。 Combiner用在加减操做的场景，不能用在乘除操做的场景
好比：
blog
Combiner既有可能在MapTask端调用：
①每次溢写前会调用Combiner对溢写的数据进行局部合并
②在merge时，若是溢写的片断数>=3，若是设置了Combiner，Combiner会再次对
数据进行Combine！排序
Combiner既有可能在ReduceTask端调用：
③shuffle线程拷贝多个MapTask同一分区的数据，拷贝后执行merge和sort,
若是数据量过大，须要将部分数据先合并排序后，溢写到磁盘！
若是设置了Combiner，Combiner会再次运行！图片

相关文章

相关标签/搜索

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<