hadoop相关进程介绍

时间 2020-09-14

标签 hadoop 相关进程介绍栏目 Hadoop 繁體版

原文原文链接

1.NameNode:node

至关于一个领导者，负责调度，好比你须要存一个1280m的文件web

若是按照128m分块那么namenode就会把这10个块（这里不考虑副本）socket

分配到集群中的datanode上并记录对于关系。当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了。它主要维护两个 map 一个是文件到块的对应关系一个是块到节点的对应关系。ide

2. secondarynamenode：oop

它是namenode的一个快照，会根据configuration中设置的值来spa

决定多少时间周期性的去cp一下namenode，记录namenode中代理

的metadata及其它数据 rest

3. NodeManager（NM）:日志

是YARN中每一个节点上的代理，它管理Hadoop集群中单个计算节点orm

包括与ResourceManger保持通讯，监督Container的生命周期管理，

监控每一个Container的资源使用（内存、CPU等）状况，追踪节点健

康情况，管理日志和不一样应用程序用到的附属服务（auxiliary service）

4.DataNode:

a.DataNode的须要完成的首要任务是K-V存储

b.完成和namenode 通讯，这个经过IPC 心跳链接实现。

此外还有和客户端其它datanode以前的信息交换

c.完成和客户端还有其它节点的大规模通讯，这个须要直接

经过socket 协议实现。

5.ResourceManager:

在YARN中，ResourceManager负责集群中全部资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照必定的策略分配给各个应用程序（其实是ApplicationManager）

RM与每一个节点的NodeManagers (NMs)和每一个应用的ApplicationMasters (AMs)一块儿工做。

a.NodeManagers 遵循来自ResourceManager的指令来管理单一节点上的可用资源。

b.ApplicationMasters负责与ResourceManager协商资源与NodeManagers合做启动容器

6.Hadoop2 MR-JobHistory服务介绍

1）MR-JobHistory服务目标

主要是向用户提供历史的mapred Job 查询

详细解释：

a）在运行MR Job时，MR 的 ApplicationMaster会根据mapred-site.xml配置文件中的配置，将MR Job的job history信息保存到指定的hdfs路径（首先保存到临时目录，而后mv到最终目录）

b）若是在yarn-site.xml中，没有配置nodemanage的LogAggregation功能，则historyserver没法提供mr日志明细查询的功能（在提交mr job时，yarn和mapred的配置都是必须的）

c）historyserver向外提供两个接口，web接口能够提供jobhistory和明细日志查询的功能，而restApi只提供jobhistory查询的功能