大数据05--图示wordcount shuffle过程

时间 2021-07-14

原文原文链接

本文主要以wordcount为例详细阐述shuffle的实现过程我们知道，HDFS里的文件是分块存放在Datanode上面的，而我们写的mapper程序也是跑在各个节点上的。这里就涉及到一个问题，哪一个节点上的mapper读哪一些节点上的文件块呢？hadoop会自动将这个文件分片（split），得到好多split，这每一个split放到一个节点的一个mapper里面去读。然后在每一台有mappe