KubeNode：阿里巴巴云原生容器基础设施运维实践

时间 2021-03-14

标签 node git github 安全性能优化服务器架构 less 运维分布式栏目阿里巴巴繁體版

原文原文链接

做者 | 周涛阿里云技术专家
来源 | 阿里巴巴云原生公众号node

阿里巴巴节点运维的挑战

在阿里巴巴的场景下，作节点运维面临的挑战主要来自于这几个方面：规模、复杂性、稳定性。git

首先是规模大。从 18 年第一个集群的搭建，到如今线上共运行着数百个 ASI 集群、数十万个节点，其中单集群的节点数最多有超过1万台。在这之上，运行着阿里巴巴集团数万个不一样的应用，好比，你们熟知的淘宝、天猫等，总容器实例数有数百万规模。ASI 是指 Alibaba Serverless Infrastructure，也就是阿里巴巴 Serverless 基础设施。ASI 的概念同时包含集群的管控面和节点两方面。每个 ASI 集群都是调用 Aliyun 标准的 OpenAPI 建立的 ACK 托管版集群，而后在此之上，咱们自研了调度器、开发部署了不少的 addon，进行功能加强、性能优化，并对接集团的各个系统，并作到节点全托管，不须要应用开发运维人员关心底层的容器基础设施。github

其次是环境很是复杂。目前 IaaS 层运行着不少种异构的机型，有x86服务器，也有 ARM 国产化机型，同时为了服务新计算、AI 的业务，也有 GPU、FPGA 的机型。线上的内核版本也很是多，4.19 是去年开始规模上线的内核版本，同时 3.10 / 4.9 内核版本上的节点问题也须要继续支撑，不一样的内核版本演进也须要具有规模化轮转的运维能力。目前上万个在线应用包含了像淘宝、天猫、菜鸟、高德、饿了么、考拉、盒马等各类不一样的业务，同时跟在线应用一块儿运行着混部、安全容器的业务，像大数据、离线计算、实时计算、搜索等这些业务类型也都跟在线业务运行在同一个主机环境中。安全

最后是对稳定性的高要求。在线业务的特色是对延迟和抖动很是敏感，单节点的抖动、夯机、宕机等故障均可能会影响某个用户在淘宝的下单付款，引起用户的吐槽和投诉，因此总体对稳定性的要求很是高，要求对单节点故障的处理有很高的及时性和有效性。性能优化

KubeNode：云原生节点运维底座介绍

KubeNode，是阿里巴巴自研的基于云原生方式来管理和运维节点的底座项目，相比于传统的过程式的运维手段，KubeNode 经过 K8s 扩展 CRD 以及对应的一组 Operator，能提供完整的节点生命周期和节点组件生命周期管理，经过申明式、面向终态的方式，把节点及节点组件的管理变得跟管理 K8s 中的一个应用同样简单，并实现节点的高度一致性以及自愈修复的能力。服务器

上图右侧是 KubeNode 一个简化的架构，总体是由这几个部分组成的：架构

中心端有 Machine Operator 负责节点和节点组件管理，Remedy Operator 负责节点的故障自愈修复。节点侧有 Kube Node Agent，这个单机 agent 组件负责 watch 中心 Machine Operator、Remedy Operator 生成的 CRD 对象实例，并执行相应的操做，像节点组件的安装、故障自愈任务的执行等。less

配合着 KubeNode，阿里巴巴还使用 NPD 进行单机的故障检测，以及对接 Kube Defender (阿里自研组件) 进行统一风控。固然社区版本的 NPD 提供的故障检测项是比较有限的，阿里巴巴在社区的基础上进行了扩展，结合阿里巴巴多年节点、容器运维的实践，加入了不少节点的故障检测项，大大丰富了单机故障检测的能力。运维

1. KubeNode 和社区项目关系

github.com / kube-node：不相关，该项目 2018 年初已中止。分布式
ClusterAPI：KubeNode 能够做为 ClusterAPI 节点终态的补充。

功能对比：

这里解释下阿里巴巴自研的 KubeNode 项目跟社区项目的关系。你们看到 kube-node 这个名字的时候，可能会以为有点似曾相识，在 github 上是有一个同名的项目 github.com/kube-node，但其实这个项目早在 2018 年初的时候就已经中止了，因此只是名字相同，二者并无关系。

另外社区的 ClusterAPI 是一个建立并管理 K8s 集群和节点的项目，这里对比了两个项目的关系：

集群建立：ClusterAPI 负责集群的建立，KubeNode 不提供此功能。
节点建立：ClusterAPI 和 KubeNode 均可以建立节点。
节点组件管理和终态维持：ClusterAPI 没有提供相应的功能，KubeNode 能够管理节点组件并保持终态。
节点故障自愈：ClusterAPI 主要提供基于节点健康状态重建节点的自愈能力；KubeNode 提供了更丰富的节点组件自愈功能，能对节点上的各类软硬件故障进行自愈修复。

总的来讲，KubeNode 能够和 ClusterAPI 一块儿配合工做，是对 ClusterAPI 的一个很好补充。

这里提到的节点组件，是指运行在节点上的 kubelet，Docker 的软件，阿里内部使用 Pouch 做为咱们的容器运行时。除了 kubelet，Pouch 这些调度必须的组件外，还有用于分布式容器存储、监控采集、安全容器、故障检测等总共十多个组件。

一般安装升级 kubelet，Docker 是经过相似 Ansible 等面向过程的一次性动做来完成的。在长时间运行过程当中，软件版本被意外修改或是碰到 bug 不能工做的问题是很常见的，同时这些组件在阿里巴巴的迭代速度很是快，每每一两周就须要发布推平一个版本。为了知足组件快速迭代又能安全升级、版本一致的需求，阿里巴巴自研了 KubeNode，经过将节点以及节点组件经过 K8s CRD 的方式进行描述，并进行面向终态的管理，从而确保版本一致性，配置一致性以及运行态正确性。

2. KubeNode - Machine Operator

上图是 Machine Operator 的架构，一个标准的 Operator 设计：扩展的一组 CRD 再加上中心的控制器。
CRD 定义包括：跟节点相关的 Machine、MachineSet，以及跟节点组件相关的 MachineComponent、MachineComponentSet。

中心端的控制器包括：Machine Controller、MachineSet Controller、MachineComponentSet Controller，分别用来控制节点的建立、导入，节点组件的安装、升级。

Infra Provider 具备可扩展性，能够对接不一样的云厂商，目前只对接了阿里云，可是也可经过实现相应的 Provider 实现对接 AWS、Azure 等不一样的云厂商。

单机上的 KubeNode 负责 watch CRD 资源，当发现有新的对象实例时，则进行节点组件的安装升级，按期检查各个组件是否运行正常，并上报组件的运行状态。

1）Use Case：节点导入

下面分享基于 KubeNode 对已有节点的导入过程。

首先用户会在咱们的多集群管理系统中提交一个已有节点的导入操做，接下来系统先下发证书，并安装 KubeNode Agent，等 agent 正常运行并启动以后，第3步会提交 Machine CRD，接下来 Machine Controller 会修改状态为导入 phase，并等 Node ready 以后从 Machine 上同步 label / taint 到 Node。第 5 步是 MachineComponentSet，根据 Machine 的信息肯定要安装的节点组件，并同步到 Machine 上。最后 Kube Node Agent 会 watch 到 Machine、MachineComponent 的信息，完成节点组件的安装，并等全部组件运行正常后，节点导入操做完成。整个过程跟用户提交一个 Deployment 并最终启动一个业务 Pod 是相似的。

节点组件的终态一致主要包含了软件版本、软件配置和运行状态的正确、一致。

2）Use Case：组件升级

这里介绍下组件的升级过程，主要依赖的是 MachineComponentSet Controller 提供的分批次升级的能力。

首先用户在多集群管理系统上面提交一个组件升级操做，而后就进入一个逐批次循环升级的过程：先更新 MachineComponentSet 一个批次升级的机器数量是多少，以后 MachineComponentSet Controller 会计算并更新相应数量的节点上组件的版本信息。接下来 Kube Node Agent watch 到组件的变化，执行新版本的安装，并检查状态正常后上报组件状态正常。当这个批次全部的组件都升级成功后，再开始下一个批次的升级操做。

上面描述的单集群单个组件的升级流程是比较简单的，但对于线上十多个组件、上百个集群，要在全部的集群都完成版本推平工做就不那么简单了，咱们经过 ASIOps 集群统一运维平台进行操做。在 ASIOps 系统中，将上百个集群配置到了有限的几个发布流水线，每条发布流水线都按照：测试 -> 预发 -> 正式的顺序编排。一次正常的发布流程，就是选定一条发布流水线，按其预先设定好的集群顺序进行发布，在每一个集群内部，又按照 1/5/10/50/100/... 的顺序进行自动发布，每个批次发布完成，会触发健康巡检，若是有问题则暂停自动发布，没问题的话等观察期结束，则自动开始下一个批次的发布。经过这样的方式，作到了既安全又高效的完成一个组件新版本发布上线的过程。

3. KubeNode - Remedy Operator

接下来分享 KubeNode 里面的 Remedy Operator，也是一个标准的 Operator，用来作故障自愈修复。

Remedy Operator 也是由一组 CRD 以及对应的控制器组成。CRD 定义包括：NodeRemedier 和 RemedyOperationJob，控制器包括：Remedy Controller、RemedyJob Controller，同时也有故障自愈规则的注册中心，在单机侧有 NPD 和 Kube Node Agent。

Host Doctor 是在中心侧的一个独立的故障诊断系统，对接云厂商获取主动运维事件并转换为节点上的故障 Condition。在阿里云公有云上，ECS 所在的物理机发生的硬件类的故障或是计划中的运维操做，都会经过标准 OpenAPI 的形式获取，对接后就能够提早感知节点的问题，并提早自动迁移节点上的业务来避免故障。

Use Case：夯机自愈

这里以夯机自愈的案例来介绍一个典型的自愈流程。

首先咱们会在多集群管理系统 ASI Captain 上配置下发 CRD 描述的自愈规则，而且这些规则是能够灵活动态增长的，针对每一种 Node Condition 均可以配置一条对应的修复操做。

接下来节点上的 NPD 会周期性的检查是否有发生各类类型的故障，当发现内核日志中有出现 "task xxx blocked for more than 120 seconds" 的异常日志以后，断定节点夯机，并给 Node 上报故障 Condition，Remedy Controller watch 到变化后，就触发自愈修复流程：首先会调用 Kube Defender 风控中心接口判断当前自愈操做是否容许执行，经过后就生成 RemedyOperationJob 自愈任务，Kube Node Agent watch 到 job 后执行自愈操做。

能够看到整个自愈流程不依赖于外部第三方系统，经过 NPD 作故障检测，Remedy Operator 执行自愈修复，以云原生的方式完成了整个的自愈修复流程，最快能够作到分钟级的故障发现并修复。同时，经过对 NPD 检测规则的加强，处理的故障范围覆盖了从硬件故障、OS 内核故障、到组件故障的全链路修复。值得强调的是，全部的自愈操做都会对接 Kube Defender 统一风控中心，进行分钟级、小时级、天级别的自愈修复流控，防止当出现 Region / Zone 级别断网、大规模 io hang、或是其余大面积软件 bug 的状况下，触发对整个 Region 全部节点的故障自愈，引起更严重的二次故障。

KubeNode 数据体系

KubeNode 数据体系建设的好坏对总体度量并提高 SLO 起着很是重要的做用。

在节点侧，NPD 会检测故障并上报事件中心，同时 walle 是单机侧的指标采集组件，会采集节点以及容器的各类指标项信息，包括像 CPU / Memory / IO / Network 等常见的指标，以及不少其余的像内核、安全容器等的指标项。中心侧 Promethes (阿里云公有云上的 ARMS 产品) 会采集全部节点的指标并进行存储，同时也采集扩展过的 Kube State Metrics 的数据，获取 Machine Operator 和 Remedy Operator 的关键指标信息。在获取到这些数据的基础之上，再在上层面向用户，配置监控大盘、故障报警、以及全链路诊断的能力。

经过数据体系的建设，咱们就能够用来作资源利用率的分析统计，能够提供实时的监控报警，进行故障分析统计，也能够分析总体 KubeNode 中的节点以及节点组件的覆盖率、一致率、节点自愈的效率，并提供针对节点的全链路诊断功能，当排查节点问题时，能够查看该节点上历史发生过的全部的事件，从而帮助用户快速定位缘由。

将来展望

目前 KubeNode 已经覆盖了阿里巴巴集团的全部的 ASI 集群，接下来，将随着阿里巴巴集团“统一资源池”的项目，推动 KubeNode 覆盖更大的范围、更多的场景，让云原生的容器基础设施运维架构发挥更大的价值。

做者简介

周涛阿里云技术专家，2017 年加入的阿里，过去几年一直负责阿里巴巴数十万规模集群节点管控系统的研发工做，参与了历年的双十一大促。随着 2018 年末开始的集团上云项目，管理的节点从云下的物理机覆盖到了阿里云公有云上的神龙裸金属服务器，并支撑双11 大促实现了交易核心系统的全面云原生化改造。