yarn默认只管理内存资源,虽然也能够申请cpu资源,可是在没有cpu资源隔离的状况下效果并非太好.在集群规模大,任务多时资源竞争的问题尤其严重. 还好yarn提供的LinuxContainerExecutor能够经过cgroup来隔离cpu资源html
cgroup是系统提供的资源隔离功能,能够隔离系统的多种类型的资源,yarn只用来隔离cpu资源node
默认系统已经安装了cgroup了,若是没有安装能够经过命令安装linux
yum install -y libcgroup
而后经过命令启动apache
/etc/init.d/cgconfig start
查看/cgroup
目录,能够看到里面已经建立了一些目录,这些目录就是能够隔离的资源centos
drwxr-xr-x 2 root root 0 3月 19 20:56 blkio drwxr-xr-x 3 root root 0 3月 19 20:56 cpu drwxr-xr-x 2 root root 0 3月 19 20:56 cpuacct drwxr-xr-x 2 root root 0 3月 19 20:56 cpuset drwxr-xr-x 2 root root 0 3月 19 20:56 devices drwxr-xr-x 2 root root 0 3月 19 20:56 freezer drwxr-xr-x 2 root root 0 3月 19 20:56 memory drwxr-xr-x 2 root root 0 3月 19 20:56 net_cls
若是目录没有建立能够执行安全
cd / mkdir cgroup mount -t tmpfs cgroup_root ./cgroup mkdir cgroup/cpuset mount -t cgroup -ocpuset cpuset ./cgroup/cpuset/ mkdir cgroup/cpu mount -t cgroup -ocpu cpu ./cgroup/cpu/ mkdir cgroup/memory mount -t cgroup -omemory memory ./cgroup/memory/
经过cgroup隔离cpu资源的步骤为服务器
mkdir
命令便可. 组下面还能够建立下级组.最终能够造成一个树形结构来完成复杂的资源隔离方案. 每当建立了一个组,系统会自动在目录当即建立一些文件,资源控制主要就是经过配置这些文件来完成--w--w--w- 1 root root 0 3月 19 21:09 cgroup.event_control -rw-r--r-- 1 root root 0 3月 19 21:09 cgroup.procs -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.cfs_period_us -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.cfs_quota_us -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.rt_period_us -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.rt_runtime_us -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.shares -r--r--r-- 1 root root 0 3月 19 21:09 cpu.stat -rw-r--r-- 1 root root 0 3月 19 21:09 notify_on_release -rw-r--r-- 1 root root 0 3月 19 21:09 tasks
yarn默认使用hadoop-yarn
组做为最上层,任务运行时yarn会为每一个container在hadoop-yarn
里面建立一个组 yarn主要使用cpu.cfs_quota_us
cpu.cfs_period_us
cpu.shares
3个文件 yarn使用cgroup的两种方式来控制cpu资源分配dom
tasks
文件便可,若是须要解除限制,在tasks
文件删除便可启动cgroup须要配置几个配置文件oop
能够参考http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html 配置 这些配置大部分都是固定配置测试
<property> <name>yarn.nodemanager.container-executor.class</name> <value>org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor</value> </property> <property> <name>yarn.nodemanager.linux-container-executor.resources-handler.class</name> <value>org.apache.hadoop.yarn.server.nodemanager.util.CgroupsLCEResourcesHandler</value> </property> <property> <description>yarn使用的cgroup组,默认为/hadoop-yarn</description> <name>yarn.nodemanager.linux-container-executor.cgroups.hierarchy</name> <value>/hadoop-yarn</value> </property> <property> <description>是否自动挂载cgroup</description> <name>yarn.nodemanager.linux-container-executor.cgroups.mount</name> <value>true</value> </property> <property> <description>cgroup挂载目录, /sys/fs/cgroup 或者是 /cgroup,目录和系统有关</description> <name>yarn.nodemanager.linux-container-executor.cgroups.mount-path</name> <value>/cgroup</value> </property> <property> <name>yarn.nodemanager.linux-container-executor.group</name> <value>hadoop</value> </property> <property> <description>配置nodemanager使用多少物理cpu资源,好比24核服务器配置90的话,最近使用21.6核</description> <name>yarn.nodemanager.resource.percentage-physical-cpu-limit</name> <value>90</value> </property> <property> <description>是控制是否严格限制cpu,即按任务申请的core限制,仍是非严格限制,即按core的比率限制</description> <name>yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage</name> <value>true</value> </property> <property> <description>非安全模式将会以这里设置的用户运行container,好比配置hadoop用户则以hadoop运行container</description> <name>yarn.nodemanager.linux-container-executor.nonsecure-mode.local-user</name> <value>hadoop</value> </property>
这个配置文件每项都须要填,要否则会报错
yarn.nodemanager.linux-container-executor.group=hadoop banned.users=root min.user.id=1000 allowed.system.users=hadoop
在配置中文件的权限有特殊要求
chown root:hadoop bin/container-executor chmod 6050 bin/container-executor
系统还要求etc/hadoop/container-executor.cfg
的全部父目录(一直到/
目录) owner 都为 root 这个路径是默认${HADOOP_HOME}/etc/hadoop/container-executor.cfg
,若是不方便修改全部父级目录为root
权限,能够从新编译代码到其余目录,好比/etc/hadoop/
目录
mvn clean package -Dcontainer-executor.conf.dir=/etc/hadoop/ -DskipTests -Pnative
配置好之后检测是否配置成功
./bin/container-executor --checksetup
若是没有任何输出表示配置成功 若是一切顺利就能够启动集群了
能够运行测试脚本测试系统
./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ --deploy-mode cluster \ --num-executors 5 \ --executor-cores 3 \ --executor-memory 4G \ --driver-memory 4G \ --driver-cores 2 \ lib/spark-examples-1.6.0-hadoop2.6.0.jar 10000``` 查看系统是否生效只能登陆到服务器查看 经过`top`查看信息  查看是否建立了cgroup分组,`ll /cgroup/hadoop-yarn/`
--w--w--w- 1 root root 0 3月 17 15:44 cgroup.event_control -rw-r--r-- 1 root root 0 3月 17 15:44 cgroup.procs drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000011 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000026 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000051 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000076 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000101 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000123 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000136 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000155 drwxr-xr-x 2 root root 0 3月 17 16:30 container_1489736876249_0004_01_000008 -rw-r--r-- 1 root root 0 3月 17 15:47 cpu.cfs_period_us -rw-r--r-- 1 root root 0 3月 17 15:47 cpu.cfs_quota_us -rw-r--r-- 1 root root 0 3月 17 15:44 cpu.rt_period_us -rw-r--r-- 1 root root 0 3月 17 15:44 cpu.rt_runtime_us -rw-r--r-- 1 root root 0 3月 17 15:44 cpu.shares -r--r--r-- 1 root root 0 3月 17 15:44 cpu.stat -rw-r--r-- 1 root root 0 3月 17 15:44 notify_on_release -rw-r--r-- 1 root root 0 3月 17 15:44 tasks
查看`container_*`目录下 `cpu.cfs_period_us`,计算` cpu.cfs_quota_us/cpu.cfs_period_us`便可知道分配的核数
[root@- ~]# cat /cgroup/cpu/hadoop-yarn/container*/cpu.cfs_period_us 462962 462962 462962 462962 462962 462962 462962 462962 308641
## 问题处理 配置的过程当中免不了会碰上一些问题,如下是我碰到的问题 ### spark任务申请了core,`node manager`分配不正确,都是分配1个核 这个是因为目前使用的`capacity scheduler`的资源计算方式只考虑了内存,没有考虑CPU 这种方式会致使资源使用状况统计不许确,好比一个saprk程序启动命令资源参数以下
--num-executors 1 --executor-cores 3 --executor-memory 4G --driver-memory 4G --driver-cores 1
DefaultResourceCalculator 统计占2核 DominantResourceCalculator 统计占4核 修改配置文件便可解决
<property> <name>yarn.scheduler.capacity.resource-calculator</name> <value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value> <description> The ResourceCalculator implementation to be used to compare Resources in the scheduler. The default i.e. DefaultResourceCalculator only uses Memory while DominantResourceCalculator uses dominant-resource to compare multi-dimensional resources such as Memory, CPU etc. </description> </property> ``` ### container-executor运行时报缺乏GLIBC_2.14库 ``` container-executor: /lib64/libc.so.6: version `GLIBC_2.14' not found (required by bin/container-executor) ``` 这个和系统版本有关,只能经过从新编译`container-executor`来解决 ``` mvn clean package -Dcontainer-executor.conf.dir=/etc/hadoop/ -DskipTests -Pnative ``` ### centos 7系统container启动报错,不能写入/cgroup/cpu 这个是yarn在centos 7下的一个bug,hadoop 2.8之后的版本才会解决 这个bug主要是由于centos 7下cgroup的目录和centos 6不一致致使,centos 7 cpu目录合并成`cpu,cpuacct`, 这个`,`致使的错误,须要打补丁后编译 https://issues.apache.org/jira/browse/YARN-2194
private String findControllerInMtab(String controller, Map<String, List<String>> entries) { for (Entry<String, List<String>> e : entries.entrySet()) { // if (e.getValue().contains(controller)) // return e.getKey(); if (e.getValue().contains(controller)) { String controllerKey = e.getKey(); // In Redhat7, the controller is called "/sys/fs/cgroup/cpu,cpuacct" controllerKey = controllerKey.replace("cpu,cpuacct", "cpu"); if (new File(controllerKey).exists()) { return controllerKey; } } } return null; }
因为改变了资源的隔离方式,升级可能有几个方面的影响
升级cgroup后单个任务若是之前资源分配不合理可能会出现计算延时状况,出现资源问题时须要调整任务资源 在集群规模小的时候可能没有资源能够调整,那么能够修改成非严格模式,非严格模式不能按配置限制资源,只能保证资源不被少数进程所有占用
<property> <name>yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage</name> <value>false</value> </property
spark任务的driver在集群模式deploy-mode cluster
时,若是没有配置driver-cores
的话默认分配1核,1核在任务规模大时有可能资源会紧张.采用deploy-mode client
模式的不受cgroup限制