上次的hadoop中的hdfs文件系统中,咱们把hadoop根目录下面的conf下的全部.xml文件上传到了hdfs文件系统中,下面咱们就经过mapreduce程序来对单词进行一下统计 分布式
首先咱们进入到hadoop的根目录下面,而后执行以下的命令 oop
hadoop jar hadoop-examples-1.2.1.jar wordcount /opt/data/temp/input/ /opt/data/temp/output/ 测试
以后咱们再查看下文件系统,你会发如今文件系统中多出了一个output的目录,以下图,表示已经成功了,上面这个命令 spa
主要是用于单词的统计. xml
接下来咱们查看一下统计的结果: 排序
上面是经过命令的方式去查看的,固然咱们也能够经过文件系统去查看,结果是同样的. hadoop
下面就上面这个图我稍微解析下。 input
首先是客户将数据我本身的本地文件上传到咱们的hdfs分布式文件系统中,当咱们的用户运行前面的jar测试程序的时候,首先到hdfs文件系统中拿到这些文件,由于文件系统中有两个文件,每一个文件对应一个MapReduce程序,每一个程序分别解析文件当中的单词,也就是从Map到sorter的过程,而后会对解析的这些单词进行排序处理,也就是从sorter到Reduc的过程,而后Recuce会对排序的单词进行统计,而后再写到咱们的HDFS文件系统上。这里我根据本身的理解去写的。 文件上传