Hadoop_05_运行 Hadoop 自带 MapReduce程序

时间 2020-05-03

标签 hadoop 运行自带 mapreduce 程序栏目 Hadoop 繁體版

原文原文链接

1. MapReduce使用编程

　　MapReduce是Hadoop中的分布式运算编程框架，只要按照其编程规范，只须要编写少许的业务逻辑代码便可实现并发

一个强大的海量数据并发处理程序框架

2. 运行Hadoop自带的MapReduce程序（word count单词统计功能）
分布式

　　1.在HDFS中建立层级目录，而且上传文件到指定目录：hadoop fs -mkdir -p /wordcount/inputoop

　　2.上传文件到HDFS指定目录：hadoop fs -put a.txt b.txt /wordcount/inputspa

　　3.运行MapReduce程序的自带jar包：cd /usr/local/src/hadoop-2.6.4/share/hadoop/mapreduce/.net

　　运行：hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input /wordcount/outputcode

　　　　wordcount：jar包中须要运行的主类blog

　　　　/wordcount/input：wordcount主类须要的参数，指定数据文件目录，统计里面的数据文件hadoop

　　　　/wordcount/output：统计文件后的结果保存目录，必需要求改目录不存在

　　4.查看输出文件统计结果：hadoop fs -cat /wordcount/output/part-r-00000

本身写MapReduce程序可参考这篇用MapReduce计算Pi的文章http://blog.csdn.net/mrbcy/article/details/61455917