Spark中的Spark Shuffle详解

Shuffle简介算法 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是链接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须通过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。由于在分布式状况下,reduce task须要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源
相关文章
相关标签/搜索