Spark原理篇之Shuffle详解

1 Shuffle简介       Shuffle描述数据从Map Task输出到Reduce Task输入的这段过程。Shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过Shuffle这个环节,Shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,Reduce Task需要跨节点去拉取其他节点上的Map Task结果。这一过程将会产
相关文章
相关标签/搜索