分布式并行计算MapReduce

时间 2019-12-12

标签分布式并行计算 mapreduce 栏目系统架构繁體版

原文原文链接

分布式并行计算MapReduce

做业要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319shell

1.用本身的话阐明Hadoop平台上HDFS和MapReduce的功能、工做原理和工做过程。

HDFS的功能：HDFS是做为底层存储系统来存储分布式环境中的数据，它能够让你在Hadoop集群中的多个节点上存储大量数据（不管是结构化的，非结构化的仍是半结构化的）服务器

HDFS的工做原理：客户端发送各类各样各类各样的请求，而后NameNode做为一个管理者，下达命令，DataNode 执行实际的操做分布式

HDFS的工做过程：客户端把文件文件切分红一个一个的Block，而后进行存储，再与NameNode 交互，获取文件的位置信息，以后又与 DataNode 交互，读取或者写入数据。函数

MapReduce的功能：它能够把大型数据处理任务分解成不少单个的、在服务器集群中执行，而且计算结果能够合并在一块儿来计算最终的结果 oop

MapReduce的工做原理：利用JobTracker获得jobID，而后JobTracker收到做业的最后一个任务完成信息以后，客户端的job再把信息传给用户测试

MapReduce的工做过程：客户端启动一个做业，向JobTracker请求一个做业的ID，将运行做业所须要的资源文件复制到HDFS上，JobTracker接收到做业后将其放在做业队列中，等待JobTracker对其进行调度。当JobTracker收到做业的最后一个任务完成信息时，便把做业设置成"成功"，JobClient再传达信息给用户spa

2.HDFS上运行MapReduce

1）准备文本文件，放在本地/home/hadoop/wc

2）编写map函数和reduce函数，在本地运行测试经过 3d

3）启动Hadoop：HDFS, JobTracker, TaskTracker blog

4）把文本文件上传到hdfs文件系统上 user/hadoop/input 接口

5）streaming的jar文件的路径写入环境变量，让环境变量生效

6）创建一个shell脚本文件：streaming接口运行的脚本，名称为run.sh

7）source run.sh来执行mapreduce

8）查看运行结果