Hadoop的MapReduce详解

时间 2021-07-10

原文原文链接

一、MapReduce数据处理流程关于上图，可以做出以下逐步分析：输入数据（待处理）首先会被切割分片，每一个分片都会复制多份到HDFS中。上图默认的是分片已经存在于HDFS中。 Hadoop会在存储有输入数据分片（HDFS中的数据）的节点上运行map任务，可以获得最佳性能（数据TaskTracker优化，节省带宽）。在运行完map任务之后，可以看到数据并不是存回HDFS中，而是直接存在了本地