系列文章：云原生Kubernetes日志落地方案

时间 2019-11-11

标签系列文章原生 kubernetes 日志落地方案繁體版

原文原文链接

在Logging这块作了几年，最近1年来愈来愈多的同窗来咨询如何为Kubernetes构建一个日志系统或者是来求助在这过程当中遇到一系列问题如何解决，授人以鱼不如授人以渔，因而想把咱们这些年积累的经验以文章的形式发出来，让看到这篇文章的同窗能少走弯路。这个系列文章定位为长篇连载，内容偏向落地实操以及经验分享，且内容会随着技术的迭代而不按期更新。web

前言

第一次听到Kubernetes的名字是在16年，那个时候Kubernetes还处于和Docker Swarm、Mesos方案的“三国鼎立时代”，Kubernetes因为一系列优点（可扩展、声明式接口、云友好）在这一竞争中崭露头角，最终得到统治地位。Kubernetes做为CNCF最核心的项目（没有之一），是Cloud Native（云原生）落地的底座，目前阿里已经全面基于Kubernetes在开展全站的云原生改造，在1-2年内，阿里巴巴100%的业务都将跑在公有云上。安全

CloudNative在CNCF的定义的核心是：在公有云、私有云、混合云等环境中，经过Containers、Service Meshes、 MicroServices、Immutable Infrastructure、Declarative APIs构建和运行可弹性扩展的且具备高容错性、易于管理、可观察、松耦合的应用系统。可观察性是应用系统必不可少的一个部分，云原生的设计理念中就有一条：面向诊断性设计（Diagnosability），包括集群级别的日志、Metric和Trace。架构

为什么咱们须要日志系统

一般一个线上问题的定位流程是：经过Metric发现问题，根据Trace定位到问题模块，根据模块具体的日志定位问题缘由。在日志中包括了错误、关键变量、代码运行路径等信息，这些是问题排查的核心，所以日志永远是线上问题排查的必经路径。并发

在阿里的十多年中，日志系统伴随着计算形态的发展在不断演进，大体分为3个主要阶段：less

在单机时代，几乎全部的应用都是单机部署，当服务压力增大时，只能切换更高规格的IBM小型机。日志做为应用系统的一部分，主要用做程序Debug，一般结合grep等Linux常见的文本命令进行分析。
随着单机系统成为制约阿里业务发展的瓶颈，为了真正的Scale out，飞天项目启动：2013年飞天5K项目正式上线。在这个阶段各个业务开始了分布式改造，服务之间的调用也从本地变为分布式，为了更好的管理、调试、分析分布式应用，咱们开发了Trace（分布式链路追踪）系统、各式各样的监控系统，这些系统的统一特色是将全部的日志（包括Metric等）进行集中化的存储。
为了支持更快的开发、迭代效率，近年来咱们开始了容器化改造，并开始了拥抱Kubernetes生态、业务全量上云、Serverless等工做。在这阶段，日志不管从规模、种类都呈现爆炸式的增加，对日志进行数字化、智能化分析的需求也愈来愈高，所以统一的日志平台应运而生。

可观察性的终极解读

在CNCF中，可观察性的主要做用是问题的诊断，上升到公司总体层面，可观察性（Observability）不只仅包括DevOps领域，还包括业务、运营、BI、审计、安全等领域，可观察性的最终的目标是实现公司各个方面的数字化、智能化。分布式

在阿里，几乎全部的业务角色都会涉及到各式各样的日志数据，为了支撑各种应用场景，咱们开发了很是多的工具和功能：日志实时分析、链路追踪、监控、数据加工、流计算、离线计算、BI系统、审计系统等等。日志系统主要专一于数据的实时采集、清洗、智能分析与监控以及对接各种各样的流计算、离线系统。微服务

Kubernetes日志系统建设难点

单纯日志系统的解决方案很是多，相对也比较成熟，这里就再也不去赘述，咱们这次只针对Kubernetes上的日志系统建设而论。Kubernetes上的日志方案相比咱们以前基于物理机、虚拟机场景的日志方案有很大不一样，例如：工具

日志的形式变的更加复杂，不只有物理机/虚拟机上的日志，还有容器的标准输出、容器内的文件、容器事件、Kubernetes事件等等信息须要采集。
环境的动态性变强，在Kubernetes中，机器的宕机、下线、上线、Pod销毁、扩容/缩容等都是常态，这种状况下日志的存在是瞬时的（例如若是Pod销毁后该Pod日志就不可见了），因此日志数据必须实时采集到服务端。同时还须要保证日志的采集可以适应这种动态性极强的场景。
日志的种类变多，上图是一个典型的Kubernetes架构，一个请求从客户端须要通过CDN、Ingress、Service Mesh、Pod等多个组件，涉及多种基础设施，其中的日志种类增长了不少，例如K8s各类系统组件日志、审计日志、ServiceMesh日志、Ingress等。
业务架构变化，如今愈来愈多的公司开始在Kubernetes上落地微服务架构，在微服务体系中，服务的开发更加复杂，服务之间的依赖以及服务底层产品的依赖愈来愈多，这时的问题排查将更加复杂，若是关联各个维度的日志将是一个困难的问题。
日志方案集成困难，一般咱们都会在Kubernetes上搭建一套CICD系统，这套CICD系统须要尽量的自动化的完成业务的集成和部署，其中日志的采集、存储、清洗等也须要集成到这套系统中，并和K8s的声明式部署方式尽量一致。而现有的日志系统一般都是较独立的系统，集成到CICD中代价极大。
日志规模问题，一般在系统初期的时候咱们会选择自建开源的日志系统，这种方式在测试验证阶段或公司发展初期是没有什么问题的，但当业务逐渐增加，日志量增加到必定规模时，自建的开源系统不少时候都会遇到各类各样的问题，例如租户隔离、查询延迟、数据可靠性、系统可用性等。日志系统虽不是IT中最核心的路径，但一旦关键时刻出现这些问题都将是很是可怕的影响，例如大促的时候出现紧急问题，排查时多个工程师并发查询把日志系统打爆，致使故障恢复时间变长，大促收到影响。

总结

相信在搞K8s日志系统建设的同窗看到上面的难点分析都会深有感触，后面咱们会从落地角度出发，详细介绍在阿里咱们如何去搭建K8s的日志系统，敬请关注。测试

本文做者：元乙

原文连接url

本文为云栖社区原创内容，未经容许不得转载。