大数据05--图示wordcount shuffle过程

本文主要以wordcount为例详细阐述shuffle的实现过程 我们知道,HDFS里的文件是分块存放在Datanode上面的,而我们写的mapper程序也是跑在各个节点上的。这里就涉及到一个问题,哪一个节点上的mapper读哪一些节点上的文件块呢?hadoop会自动将这个文件分片(split),得到好多split,这每一个split放到一个节点的一个mapper里面去读。然后在每一台有mappe
相关文章
相关标签/搜索