做业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319shell
HDFS的功能:HDFS是做为底层存储系统来存储分布式环境中的数据,它能够让你在Hadoop集群中的多个节点上存储大量数据(不管是结构化的,非结构化的仍是半结构化的)服务器
HDFS的工做原理:客户端发送各类各样各类各样的请求,而后NameNode做为一个管理者,下达命令,DataNode 执行实际的操做分布式
HDFS的工做过程:客户端把文件文件切分红 一个一个的Block,而后进行存储,再与NameNode 交互,获取文件的位置信息,以后又与 DataNode 交互,读取或者写入数据。 函数
MapReduce的功能:它能够把大型数据处理任务分解成不少单个的、在服务器集群中执行,而且计算结果能够合并在一块儿来计算最终的结果 oop
MapReduce的工做原理:利用JobTracker获得jobID,而后JobTracker收到做业的最后一个任务完成信息以后,客户端的job再把信息传给用户 测试
MapReduce的工做过程:客户端启动一个做业,向JobTracker请求一个做业的ID,将运行做业所须要的资源文件复制到HDFS上,JobTracker接收到做业后将其放在做业队列中,等待JobTracker对其进行调度。当JobTracker收到做业的最后一个任务完成信息时,便把做业设置成"成功",JobClient再传达信息给用户spa
2)编写map函数和reduce函数,在本地运行测试经过 3d
3)启动Hadoop:HDFS, JobTracker, TaskTracker blog
4)把文本文件上传到hdfs文件系统上 user/hadoop/input 接口
5)streaming的jar文件的路径写入环境变量,让环境变量生效
6)创建一个shell脚本文件:streaming接口运行的脚本,名称为run.sh
7)source run.sh来执行mapreduce
8)查看运行结果