初涉MapReduce程序

时间 2019-11-07

标签 mapreduce 程序栏目 Hadoop 繁體版

原文原文链接

一 MapRecuce_WordCount程序测试

上次的hadoop中的hdfs文件系统中,咱们把hadoop根目录下面的conf下的全部.xml文件上传到了hdfs文件系统中,下面咱们就经过mapreduce程序来对单词进行一下统计分布式

首先咱们进入到hadoop的根目录下面,而后执行以下的命令 oop

hadoop jar hadoop-examples-1.2.1.jar wordcount /opt/data/temp/input/ /opt/data/temp/output/ 测试

以后咱们再查看下文件系统,你会发如今文件系统中多出了一个output的目录,以下图,表示已经成功了,上面这个命令 spa

主要是用于单词的统计. xml

接下来咱们查看一下统计的结果: 排序

上面是经过命令的方式去查看的,固然咱们也能够经过文件系统去查看,结果是同样的. hadoop

二 MapRecuce_WordCount程序解析

下面就上面这个图我稍微解析下。 input

首先是客户将数据我本身的本地文件上传到咱们的hdfs分布式文件系统中，当咱们的用户运行前面的jar测试程序的时候，首先到hdfs文件系统中拿到这些文件，由于文件系统中有两个文件，每一个文件对应一个MapReduce程序，每一个程序分别解析文件当中的单词，也就是从Map到sorter的过程，而后会对解析的这些单词进行排序处理，也就是从sorter到Reduc的过程，而后Recuce会对排序的单词进行统计，而后再写到咱们的HDFS文件系统上。这里我根据本身的理解去写的。文件上传