Kubernetes(K8s)是一个开源平台,可以有效简化应用管理、应用部署和应用扩展环节的手动操做流程,让用户更加灵活地部署管理云端应用。node
做为可扩展的容错平台,K8s几乎可以部署在全部基础设施中,与Google Cloud、MS Azure及AWS等公有云、私有云、混合云、服务器集群、数据中心等完美兼容。Kubernetes最大的亮点在于支持容器自动部署和自动复制。这也是大量云端微服务基础设施部署在K8s上的缘由。api
K8s最初是由Google工程师设计开发的,于2014年上线并开源,目前由来自微软、红帽、IBM及Docker等软件巨头的社区贡献者维护升级。浏览器
Google不只开源了公司整个基础设施在容器中的运行方式,还积极开发Linux容器技术,支撑Google全部云服务。K8s是基于云平台15年的生产工做负载运行经验设计出来的,用于处理成千上万个容器。Google每周部署20多亿个容器。在K8s上线前,Google主要经过内部开发平台Borg进行容器部署。Borg是大型内部集群管理系统,运行了无数应用和集群任务,多年的开发经验奠基了K8s技术的基础。服务器
K8s本质上是分部在不一样机器上的容器化应用的协调系统,目的是帮助开发人员经过K8s的可预测性、可扩展性和高可用性管理容器化应用和服务的整个生命周期,经过更高水平的抽象,将多个机器统一成一个机器。这对于大型环境的运行来讲相当重要。网络
K8s不只可以优化Docker的镜像运行能力和容器管理能力,还能兼容rkt和CoreOS等容器引擎。架构
上方架构图展现了K8s工做原理。图中包含一组Master组件,其中包括不少pod。Pod针对特定应用的“逻辑主机”进行建模。每一个Pod均包含一个或多个应用容器、存储资源、惟一的网络IP及容器运行细节。Pod是容器的最小原子单元。理论上,Pod中包含一个或多个高度耦合的应用。理想状况下,每一个Pod中包含一个容器。运维
每一个进程包含一个API server、一个scheduler和多个controller。分布式
API server负责暴露K8s API、处理REST操做及后续更新。Scheduler负责将未部署的Pod匹配到合适虚拟机或物理机上。若是没有合适的机器,则Pod将处于未分配状态,直至出现合适的节点。Master运行集群级别的其余功能,经过嵌入式controller完成建立端点、发现节点、复制控制等操做。因为controller设计灵活且可扩展,Kube管理员可自行建立controller。Kube经过API server监控K8s集群的共享状态,并对集群状态进行调整,确保当前状态与理想状态一致。微服务
K8s提供支持容器化应用统一自动化、控制和升级的各项功能,包括企业级容器部署、内置服务发现、自动扩展、持久化存储、高可用、集群互通和资源装箱等。工具
依赖这些功能,K8s实现了对单体应用、批处理应用及高度分布式微服务应用等不一样应用架构的支持。
2014年上线以来,K8s一直在变革容器技术,已经成为快速批量启动应用的关键工具。与此同时,挑战也随之而来,容器编排极其复杂。
K8s虽然已经极大地简化了容器实现和管理过程当中从调度、配置到状态自动维护等一系列任务的操做难度,但监控方面依然存在挑战:
相互通讯的应用分布在不一样的云服务平台上。K8s本质上是一个通用平台,用户可在平台上自由部署应用。企业通常会采用多云端解决方案,不只可以减小对单一云服务平台的依赖,还能缩短故障停机时间,避免数据丢失。但这种部署方式也给实时数据抓取和应用状态监控带来了挑战。
在动态基础设施上不断迁移应用。因为应用处于频繁迁移状态,所以很难作到全部平台和协议之间的彻底可见,这就会隐藏系统的瓶颈问题。不少公司的基础设施上都运行着多个应用,所以这种问题是不可避免的。若是没有稳健的监控系统,用户便没法发现应用的潜在问题。
监控对象数量繁多且极为复杂:K8s由不少组件构成,很是复杂,所以要监控K8s,就必须监控下列全部对象:
操做细节:K8s的全部核心组件(即kubelet、Kube controller manager和Kube scheduler)都有不少标记。这些标记决定了集群的操做和运行方式,其初始默认值通常较小,适用于规模较小的集群。随着集群规模的扩大,用户须要及时对集群进行调整,并监控K8s的标签和注释等细节。
但监控工具从K8s抓取大量数据时会影响集群性能甚至致使集群故障,所以须要肯定监控基线。须要诊断故障时,可适当调高基线值。
调高基线值的同时要部署更多master和node,提升可用性。涉及大规模部署时,可单独部署专门存储K8s数据的集群,这样可以保证在建立监控事件、检索监控数据时,主要实例的性能不受影响。
和不少容器编排平台同样,K8s具有基本的服务器监控工具。用户可对这些工具进行适当调整,以便更好地监控K8s的运行状况。主要工具以下:
总体监控流程以下:
上述基础性工具虽然不能提供详细的应用监控数据,但可以帮助用户了解底层主机和K8s节点的状况。
通常来讲,K8s集群管理员主要关注全局监控,而应用开发人员则主要关注应用层面的监控状况。但二者的共同诉求都是在控制投入成本的前提下尽量全面地监控系统、采集数据。下周文章中,咱们将介绍两个可行的监控方案:Prometheus和Sensu。两个方案都能全面提供系统级的监控数据,帮助开发人员跟踪K8s关键组件的性能、定位故障、接收预警。
本篇为译文,原文做者:STEFAN THORPE
译自Monitoring Kubernetes
译文首发于UAVStack智能运维