大数据（5）---分布式任务资源调度Yarn

时间 2020-01-04

标签数据分布式任务资源调度 yarn 栏目系统架构繁體版

原文原文链接

前面也说到过的Yarn是hadoop体系中的资源调度平台。因此在整个hadoop的包里面天然也是有它的。这里咱们就简单介绍下，并配置搭建yarn集群。node

首先来讲Yarn中有两大核心角色Resource Manager和Node Manager。web

Resource Manager负责接收用户提交的分布式计算程序/任务，并为其划分资源，管理监控各个Node Manager。apache

Node Manager 接收resoResource Manager分配过来的任务，并计算。分布式

通俗一点说就是计算程序会被打成一个jar包，而后分配到每一个node manager上面去，这样每一个node manager 执行的代码都是同样，只是可能数据源不同。oop

集群配置：spa

node manager在物理上应该跟data node部署在一块儿，方便数据的读取日志

Yarn的软件在hadoop里面的都是有的，就和hdfs同样，咱们只须要去配置一下，而后启动就能够了xml

每台机器都对etc/hadoop/yarn-site.xml进行配置blog

<property>内存

<name>yarn.resourcemanager.hostname</name>

<value>nijunyang68</value>

</property>

由于以前配置hdfs集群的时候已经在slaves中将集群IP的都配置进去了，因此如今只须要一键执行脚本就能够了：start-yarn.sh

注意在哪台机器启动redource manager就在那儿执行这个脚本，上面的配置只是告诉集群的中机器谁是redource manager，因此执行这个脚本须要在配置中的那个机器上面去执行。从日志中也能够看见，resource manager是在本机启动的，node manager是在其余机器上面启动的。

默认8088端口能够在web页面查看yarn集群信息

说一点，上面显示内存大小是不对的，由于咱们没有配置，都是使用的默认，并非我机器的实际值，实际上个人虚拟机总共才1G的内存

配置详情：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

内存有个最小分配限制1024，不然集群是没法启动的。

核数也并非实际CPU的核数，个人虚拟机也才1核，这儿的意思是假如我内存200m，如今有一个任务须要100m内存，那么我这个机器就能够起两个任务，因此能够把核数配置成2，若是配置成那么久只能起一个任务。意思就是我CPU虽然是一核，可是我一我的100M，我200内存能够起两个任务，那么我CPU的运算能力就平均分给这两个任务。

<name>yarn.nodemanager.resource.cpu-vcores</name>

</property>

至此yarn集群就搭建完毕，后续就等着mapreduce任务丢上去运行了。