map reduce原理

shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。 shuffle的目的是以下三点: 完整地从map task端读取数据到reduce 端。 在跨节点读取数据时,尽可能地减少对带宽的不必要消耗。 减少磁盘IO对task执行的影响。 在进入map这一步之前,首先是split(分
相关文章
相关标签/搜索