hadoop2.x主要包括三个核心部分:node
(1) hdfs-分布式存储组件编程
hadoop用于存储数据的基础组件。分布式的,跨网络交互的hdfs集群。网络
(2) yarn-资源管理、任务调度组件框架
hadoop用于资源管理、任务调度的基础组件。yarn使hadoop成为分布式处理数据的通用平台,支持MapReduce v二、Tez、Hoya等多种计算框架。分布式
(3) processing framework-分布式计算框架oop
有不少针对不一样计算模型的计算框架,好比进行批量处理的MapReduce v2,图像处理的Giraph,流数据处理的Storm等。spa
(4) API-应用编程接口命令行
用户与hadoop交互的并行计算编程接口。orm
(1) Resource Managerblog
Resource Manager资源管理器是yarn的核心组件,它管理hadoop集群全部的数据处理资源。Resource Manager的任务是维护一个全局的hadoop集群的资源视图,处理资源请求,调度请求和分配资源给发起请求的应用程序。Resource Manager本质上是一个给发起请求的应用程序分配资源的专用调度器,可是它依赖执行实际调度逻辑的调度模块。
Resource Manager对应用程序和计算框架是不可知的,yarn的Resource Manager没有map task或reduce task的概念,不跟踪job工做和task任务的进程,也不处理故障。Resource Manager惟一的任务就是调度工做负载。高度的职责分离,使yarn更易扩展,可以对应用程序提供一个更通用的hadoop平台,也使yarn支持多租户hadoop集群。
(2) Node Manager
每一个salve节点都有一个Node Manager守护进程,这个守护进程做为Resource Manager的slave。每一个slave node都有一个服务,它关联到使hadoop成为分布式系统的处理服务和存储服务。每一个Node Manager跟踪本节点可用的数据处理资源的状况,并按期向Resource Manager发送报告。
hadoop集群中处理资源是以container的形式被消费的,一个container是运行一个应用必要资源的集合,包括 CPU cores,内存,网络带宽和磁盘空间。一个已部署的container是做为一个独立的进程运行在hadoop集群一个节点上的。运行在slave节点上的全部container进程在最初被slave节点的Node Manager守护进程配置、监控和跟踪。
提示:hadoop2的container概念和hadoop1的slot概念相似,可是存在不少不一样的地方:1)slot是为运行map或reduce任务而定义的;而container是通用的,能够容许任何应用程序逻辑。2)container能够用自定义的资源数量来请求,只要请求的资源数量在一个container包含的资源范围以内皆可;可是,请求slot资源,都是分配一个彻底的slot资源。
(3) Application Master
运行在hadoop集群中的每一个应用程序都有它本身的专用Application Master实例,事实上这个实例运行在节点的container进程里。在这个Application Master实例整个生命周期,它都给Resource Manager发送心跳信息,告之Resource Manager资源管理器Application Master示例的状态和应用程序对资源须要的状况。基于Resource Manager资源管理器调度的结果,资源管理器会给某个特定slave节点的Application Master实例分配container资源租用权-提早预约资源container的须要。
Application Master监督应用程序的整个生命周期,包括从Resource Manager请求资源container到向Node Manager提交container资源租用请求。
提示:每一个应用程计算框架都必须有本身的Application Master实现。好比,MapReduce有一个专门用来执行map和reduce任务的Application Maser实现。