做为国内领先的生活服务平台,美团点评不少业务都具备很是显著、规律的”高峰“和”低谷“特征。尤为遇到节假日或促销活动,流量还会在短期内出现爆发式的增加。这对集群中心的资源弹性和可用性有很是高的要求,同时也会使系统在支撑业务流量时的复杂度和成本支出呈现指数级增加。而咱们须要作的,就是利用有限的资源最大化地提高集群的吞吐能力,以保障用户体验。node
本文将介绍美团点评Kubernetes集群管理与使用实践,包括美团点评集群管理与调度系统介绍、Kubernetes管理与实践、Kubernetes优化与改造以及资源管理与优化等。git
美团点评在集群管理和资源优化这条道路上已经“摸爬滚打”多年。2013年,开始构建基于传统虚拟化技术的资源交付方式;2015年7月,开始创建完善的集群管理与调度系统——HULK,目标是推进美团点评服务容器化;2016年,完成基于Docker容器技术自研实现了弹性伸缩能力,来提高交付速度和应对快速扩缩容的需求,实现弹性扩容、缩容,提高资源利用率,提高业务运维效率,合理有效的下降企业IT运维成本;2018年,开始基于Kubernetes来进行资源管理和调度,进一步提高资源的使用效率。github
最初,美团点评经过基于Docker容器技术自研实现了弹性伸缩能力,主要是为了解决基于虚拟化技术的管理及部署机制在应对服务快速扩容、缩容需求时存在的诸多不足。例如资源实例建立慢、没法统一运行环境、实例部署和交付流程长、资源回收效率低、弹性能力差等等。通过调研与测试,结合业界的实践经验,咱们决定基于Docker容器技术自研集群管理与调度系统,有效应对快速扩缩容的需求,提高资源的利用效率。咱们把它叫作"绿巨人"——HULK,这个阶段能够看做是HULK1.0。算法
以后,在生产环境中通过不断摸索和尝试,咱们逐渐意识到,仅仅知足于集群的弹性伸缩能力是不够的,成本和效率确定是将来必将面临且更为棘手的问题。咱们吸收了2年来HULK 1.0的开发和运维经验,在架构和支撑系统层面作了进一步优化和改进,并借助于生态和开源的力量来为HULK赋能,即引入了开源的集群管理与调度系统Kubernetes,指望能进一步提高集群管理、运行的效率和稳定性,同时下降资源成本。因此咱们从自研平台转向了开源的Kubernetes系统,并基于Kubernetes系统打造了更加智能化的集群管理与调度系统——HULK2.0。安全
在架构层面,HULK2.0如何能与上层业务和底层Kubernetes平台更好地分层和解耦,是咱们在设计之初就优先考虑的问题。咱们指望它既要能对业务使用友好,又能最大限度地发挥Kubernetes的调度能力,使得业务层和使用方毋需关注资源关系细节,所求即所得;同时使发布、配置、计费、负载等逻辑层与底层的Kubernetes平台解耦分层,并保持兼容原生Kubernetes API来访问Kubernetes集群。从而能够借助于统一的、主流的、符合业界规范的标准,来解决美团点评基础架构面临的复杂的、多样的、不统一的管理需求。性能优化
自上而下来看,美团集群管理与调度平台面向全公司服务,有各个主要业务线、统一的OPS平台以及Portal平台,HULK不可能针对每一个平台定制化接口和解决方案,因此须要将多样的业务和需求抽象收敛,最终统一经过HULK API来屏蔽HULK系统的细节,作到HULK与上层业务方的解耦。HULK API是对业务层和资源需求的抽象,是外界访问HULK的惟一途径。服务器
解决了上层的问题后,咱们再来看与下层Kubernetes平台的解耦。HULK接到上层资源请求后,首先要进行一系列的初始化工做,包括参数校验、资源余量、IP和Hostname的分配等等,以后向Kubernetes平台实际申请分配机器资源,最终将资源交付给用户,Kubernetes API进一步将资源需求收敛和转换,让咱们能够借助于Kubernetes的资源管理优点。Kubernetes API旨在收敛HULK的资源管理逻辑并与业界主流对齐。此外,由于彻底兼容Kubernetes API,可让咱们借助社区和生态的力量,共同建设和探索。网络
能够看到,HULK API和Kubernetes API将咱们整个系统分为三层,这样可让每一层都专一于各自的模块。架构
为何会选择Kubernetes呢?Kubernetes并非市面上惟一的集群管理平台(其余如Docker Swarm或Mesos),之因此选择它,除了它自己优秀的架构设计,咱们更加看重的是Kubernetes提供的不是一个解决方案,而是一个平台和一种能力。这种能力可以让咱们真正基于美团点评的实际状况来扩展,同时可以依赖和复用多年来的技术积累,给予咱们更多选择的自由,包括咱们能够快速地部署应用程序,而无须面对传统平台所具备的风险,动态地扩展应用程序以及更好的资源分配策略。运维
Kubernetes集群做为整个HULK集群资源管理与平台的基础,需求是稳定性和可扩展性,风险可控性和集群吞吐能力。
咱们有集群在使用1.6版本的调度器,随着集群规模的不断增加,旧版本的Kubernetes调度器(1.10以前版本)在性能和稳定性的问题逐渐凸显,因为调度器的吞吐量低,致使业务扩容超时失败,在规模近3000台的集群上,一次Pod的调度耗时在5s左右。Kubernetes的调度器是队列化的调度器模型,一旦扩容高峰等待的Pod数量过多就会致使后面Pod的扩容超时。为此,咱们对调度器性能进行了大幅度的优化,并取得了很是明显的提高,根据咱们的实际生产环境验证,性能比优化前提高了400%以上。
Kubernetes调度器工做模型以下:
(kubernetes调度器,图片来源于网络)
一次调度过程在判断一个 Node是否可做为目标机器时,主要分为三个阶段:
经过深刻分析调度过程能够发现,调度器在预选阶段即便已经知道当前 Node不符合某个过滤条件仍然会继续判断后续的过滤条件是否符合。试想若是有上万台 Node节点,这些判断逻辑会浪费不少计算时间,这也是调度器性能低下的一个重要因素。
为此,咱们提出了“预选失败中断机制”,即一旦某个预选条件不知足,那么该 Node即被当即放弃,后面的预选条件再也不作判断计算,从而大大减小了计算量,调度性能也大大提高。以下图所示:
咱们把该项优化贡献给了 Kubernetes社区(详见PR),增长了 alwaysCheckAllPredicates 策略选项,并在 Kubernetes1.10版本发布并开始做为默认的调度策略,固然你也能够经过设置alwaysCheckAllPredicates=true使用原先的调度策略。
在实际测试中,调度器至少能够提高40%的性能,若是你目前在使用的Kube-scheduler的版本低于1.10,那么建议你尝试升级到新的版本。
对于优化问题尤为是最优化问题,咱们总但愿找到全局最优的解或策略,可是当问题的复杂度太高,要考虑的因素和处理的信息量过多时,咱们每每会倾向于接受局部最优解,由于局部最优解的质量不必定都是差的。尤为是当咱们有肯定的评判标准,同时标明得出的解是能够接受的话,一般会接收局部最优的结果。这样,从成本、效率等多方面考虑,才是咱们在实际工程中真正会采起的策略。
(图片来源于网络)
当前调度策略中,每次调度调度器都会遍历集群中全部的Node,以便找出最优的节点,这在调度领域称之为BestFit算法。可是在生产环境中,咱们是选取最优Node仍是次优Node,其实并无特别大的区别和影响,有时候咱们仍是会避免选取最优的Node(例如咱们集群为了解决新上线机器后频繁在该机器上建立应用的问题,就将最优解随机化)。换句话说,找出局部最优解就能知足需求。
假设集群一共1000个Node,一次调度过程PodA,这其中有700个Node都能经过Predicates(预选阶段),那么咱们就会把全部的Node遍历并找出这700个Node,而后通过得分排序找出最优的Node节点NodeX。可是采用局部最优算法,即咱们认为只要能找出N个Node,并在这N个Node中选择得分最高的Node即能知足需求,好比默认找出100个能够经过Predicates(预选阶段)的Node便可,最优解就在这100个Node中选择。固然全局最优解NodeX也可能不在这100个Node中,可是咱们在这100个Node中选择最优的NodeY也能知足要求。最好的状况是遍历100个Node就找出这100个Node,也可能遍历了200个或者300个Node等等,这样咱们能够大大减小计算时间,同时也不会对咱们的调度结果产生太大的影响。
局部最优的策略是咱们与社区合做共同完成的,这里面还涉及到如何作到公平调度和计算任务优化的细节(详见PR1,PR2),该项优化在Kubernetes 1.12版本中发布,并做为当前默认调度策略,能够大幅度提高调度性能,尤为在大规模集群中的提高,效果很是明显。
前面提到,稳定性和风险可控性对大规模集群管理来讲很是重要。从架构上来看,Kubelet是离真实业务最近的集群管理组件,咱们知道社区版本的Kubelet对本机资源管理有着很大的自主性,试想一下,若是某个业务正在运行,可是Kubelet因为出发了驱逐策略而把这个业务的容器干掉了会发生什么?这在咱们的集群中是不该该发生的,因此须要收敛和封锁Kubelet的自决策能力,它对本机上业务容器的操做都应该从上层平台发起。
容器重启策略
Kernel升级是平常的运维操做,在经过重启宿主机来升级Kernel版本的时候,咱们发现宿主机重启后,上面的容器没法自愈或者自愈后版本不对,这会引起业务的不满,也形成了咱们不小的运维压力。后来咱们为Kubelet增长了一个重启策略(Reuse),同时保留了原生重启策略(Rebuild),保证容器系统盘和数据盘的信息都能保留,宿主机重启后容器也能自愈。
IP状态保持
根据美团点评的网络环境,咱们自研了CNI插件,并经过基于Pod惟一标识来申请和复用IP。作到了应用IP在Pod迁移和容器重启以后也能复用,为业务上线和运维带来了很多的收益。
限制驱逐策略
咱们知道Kubelet拥有节点自动修复的能力,例如在发现异常容器或不合规容器后,会对它们进行驱逐删除操做,这对于咱们来讲风险太大,咱们容许容器在一些次要因素方面能够不合规。例如当Kubelet发现当前宿主机上容器个数比设置的最大容器个数大时,会挑选驱逐和删除某些容器,虽然正常状况下不会轻易发生这种问题,可是咱们也须要对此进行控制,下降此类风险。
资源调配
在Kubelet的扩展性方面咱们加强了资源的可操做性,例如为容器绑定Numa从而提高应用的稳定性;根据应用等级为容器设置CPUShare,从而调整调度权重;为容器绑定CPUSet等等。
加强容器
咱们打通并加强了业务对容器的配置能力,支持业务给本身的容器扩展ulimit、io limit、pid limit、swap等参数的同时也加强容器之间的隔离能力。
应用原地升级
你们都知道,Kubernetes默认只要Pod的关键信息有改动,例如镜像信息,就会出发Pod的重建和替换,这在生产环境中代价是很大的,一方面IP和HostName会发生改变,另外一方面频繁的重建也给集群管理带来了更多的压力,甚至还可能致使没法调度成功。为了解决该问题,咱们打通了自上而下的应用原地升级功能,便可以动态高效地修改应用的信息,并能在原地(宿主机)进行升级。
镜像分发
镜像分发是影响容器扩容时长的一个重要环节,咱们采起了一系列手段来优化,保证镜像分发效率高且稳定:
调度策略的主要做用在两方面,一方面是按照既定策略部署目标机器;二是能作到集群资源的排布最优。
在线集群资源的优化问题,不像离线集群那样能够经过预知资源需求从而达到很是好的效果,因为将来需求的未知性,在线集群很难在资源排布上达到离线集群的效果。针对在线集群的问题,咱们从上层调度到底层的资源使用都采起了一系列的优化。
当前,在如下几个方面咱们正在积极探索:
国梁,美团点评基础研发平台集群调度中心高级工程师。
美团点评基础研发平台集群调度中心,致力于打造高效的业界领先的集群管理与调度平台,经过企业级集群管理平台建设业界领先的云化解决方案,提升集群管理能力和稳定性,同时下降IT成本,加速公司的创新发展。同时随着Kubernetes已经成为业界的事实标准,美团点评也在逐步拥抱社区,参与开源而且在集群调度领域已经取得很大进展,也期待和业界同仁一块儿努力,共同提升集群管理和调度能力,下降整个行业的IT成本,协同创新发展。美团点评基础研发平台长期招聘集群管理与调度、弹性调度、Kubernetes以及Linux内核方面的人才,有兴趣的同窗能够发送简历到tech@meituan.com。