摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理、优点、运做机制和配置方法等;着重介绍新的Yarn框架相对于原框架的差别及改进。html
编者按:对于业界的大数据存储及分布式处理系统来讲,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此再也不累述,随着需求的发展,Yarn 框架浮出水面,@依然光荣复兴的 博客给咱们作了很详细的介绍,读者经过本文中新旧 Hadoop MapReduce 框架的对比,更能深入理解新的 yarn 框架的技术原理和设计思想。 node
Yarn是一个分布式的资源管理系统,用以提升分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的缘由是为了解决原MapReduce框架的不足。最初MapReduce的committer们还能够周期性的在已有的代码上进行修改,但是随着代码的增长以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得愈来愈困难,因此MapReduce的committer们决定从架构上从新设计MapReduce,使下一代的MapReduce(MRv2/Yarn)框架具备更好的扩展性、可用性、可靠性、向后兼容性和更高的资源利用率以及能支持除了MapReduce计算框架外的更多的计算框架。apache
Yarn/MRv2最基本的想法是将原JobTracker主要的资源管理和job调度/监视功能分开做为两个单独的守护进程。有一个全局的ResourceManager(RM)和每一个Application有一个ApplicationMaster(AM),Application至关于map-reduce job或者DAG jobs。ResourceManager和NodeManager(NM)组成了基本的数据计算框架。ResourceManager协调集群的资源利用,任何client或者运行着的applicatitonMaster想要运行job或者task都得向RM申请必定的资源。ApplicatonMaster是一个框架特殊的库,对于MapReduce框架而言有它本身的AM实现,用户也能够实现本身的AM,在运行的时候,AM会与NM一块儿来启动和监视tasks。 网络
ResourceManager做为资源的协调者有两个主要的组件:Scheduler和ApplicationsManager(AsM)。架构
Scheduler负责分配最少但知足application运行所需的资源量给Application。Scheduler只是基于资源的使用状况进行调度,并不负责监视/跟踪application的状态,固然也不会处理失败的task。RM使用resource container概念来管理集群的资源,resource container是资源的抽象,每一个container包括必定的内存、IO、网络等资源,不过目前的实现只包括内存一种资源。app
ApplicationsManager负责处理client提交的job以及协商第一个container以供applicationMaster运行,而且在applicationMaster失败的时候会从新启动applicationMaster。下面阐述RM具体完成的一些功能。框架
关于ResourceManager的可用性目前尚未很好的实现,不过Cloudera公司的CDH4.4之后的版本实现了一个简单的高可用性,使用了Hadoop-common项目中HA部分的代码,采用了相似hdfs namenode高可用性的设计,给RM引入了active和standby状态,不过没有与journalnode相对应的角色,只是由zookeeper来负责维护RM的状态,这样的设计只是一个最简单的方案,避免了手动重启RM,离真正的生产可用还有一段距离。分布式
NM主要负责启动RM分配给AM的container以及表明AM的container,而且会监视container的运行状况。在启动container的时候,NM会设置一些必要的环境变量以及将container运行所需的jar包、文件等从hdfs下载到本地,也就是所谓的资源本地化;当全部准备工做作好后,才会启动表明该container的脚本将程序启动起来。启动起来后,NM会周期性的监视该container运行占用的资源状况,如果超过了该container所声明的资源量,则会kill掉该container所表明的进程。oop
另外,NM还提供了一个简单的服务以管理它所在机器的本地目录。Applications能够继续访问本地目录即便那台机器上已经没有了属于它的container在运行。例如,Map-Reduce应用程序使用这个服务存储map output而且shuffle它们给相应的reduce task。大数据
在NM上还能够扩展本身的服务,yarn提供了一个yarn.nodemanager.aux-services的配置项,经过该配置,用户能够自定义一些服务,例如Map-Reduce的shuffle功能就是采用这种方式实现的。
NM在本地为每一个运行着的application生成以下的目录结构:
Container目录下的目录结构以下:在启动一个container的时候,NM就执行该container的default_container_executor.sh,该脚本内部会执行launch_container.sh。launch_container.sh会先设置一些环境变量,最后启动执行程序的命令。对于MapReduce而言,启动AM就执行org.apache.hadoop.mapreduce.v2.app.MRAppMaster;启动map/reduce task就执行org.apache.hadoop.mapred.YarnChild。
ApplicationMaster是一个框架特殊的库,对于Map-Reduce计算模型而言有它本身的ApplicationMaster实现,对于其余的想要运行在yarn上的计算模型而言,必须得实现针对该计算模型的ApplicationMaster用以向RM申请资源运行task,好比运行在yarn上的spark框架也有对应的ApplicationMaster实现,归根结底,yarn是一个资源管理的框架,并非一个计算框架,要想在yarn上运行应用程序,还得有特定的计算框架的实现。因为yarn是伴随着MRv2一块儿出现的,因此下面简要概述MRv2在yarn上的运行流程。
MRv2运行流程:
在yarn上写应用程序并不一样于咱们熟知的MapReduce应用程序,必须牢记yarn只是一个资源管理的框架,并非一个计算框架,计算框架能够运行在yarn上。咱们所能作的就是向RM申请container,而后配合NM一块儿来启动container。就像MRv2同样,jobclient请求用于MR AM运行的container,设置环境变量和启动命令,而后交由NM去启动MR AM,随后map/reduce task就由MR AM全权负责,固然task的启动也是由MR AM向RM申请container,而后配合NM一块儿来启动的。因此要想在yarn上运行非特定计算框架的程序,咱们就得实现本身的client和applicationMaster。另外咱们自定义的AM须要放在各个NM的classpath下,由于AM可能运行在任何NM所在的机器上。
原文连接:Yarn详解(责编:Arron)