mapreduce的shuffle，partition，combine

时间 2019-11-22
标签 mapreduce shuffle partition combine 栏目 Hadoop 繁體版
原文原文链接
shuffle： 

　　是描述着数据从map端传输到reduce端的过程，并且咱们知道的是hadoop的集群环境中，大部分map task和reduce task是在不一样的node上执行，主要的开销是网络开销和磁盘IO开销，所以shuffle的主要做用至关因而 

　　1.完整的从map task端传输到reduce task端。 

　　2.跨节点传输数据时，尽量减小对带宽的消耗.（注意是reduce执行的时候去拉取map端的结果） 

　　3.减小磁盘IO开销对task的影响。 

shuffle的详细：http://webcache.googleusercontent.com/search?q=cache:MP_qIMfp1N4J:langyu.iteye.com/blog/992916+mapreduce+shuffle+partition%E4%BD%9C%E7%94%A8&cd=1&hl=zh-CN&ct=clnk&gl=cn 

Partition： 
    Partition主要做用就是将map的结果发送到相应的reduce。这就对partition有两个要求： 

1）均衡负载，尽可能的将工做均匀的分配给不一样的reduce。 

2）效率，分配速度必定要快。 

　　重定向mapper的输出，根据key来决定mapper应该讲k，v对输出给谁，默认采用的hash key来实现，也能够根据本身的须要来实现。 

partition的更多参考：http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/ 

combiner： 

　　至关于本地的reduce，在分发mapper的结果以前作一下本地的reduce，好比说wordcount程序，单词“a”出现了500次，存储并洗牌一次（“a”，500）键值对比许屡次（“a”，1）要高效。