摘要:介绍宜信智能运维平台UAVStack的设计思想、技术架构和核心功能,及落地实践经验。前端
内容来源:宜信技术学院第6期技术沙龙-线上直播|宜信智能监控平台建设实践主讲人:宜信高级架构师 & 智能监控平台负责人谢知求ios
目前业界经常使用的监控软件有不少,主流产品或以监控深度见长、或以监控广度见长。git
这些产品各有优点,也存在不足之处:github
为了克服上述不足,同时知足公司多样化和智能化的监控需求、下降二研的成本和难度,咱们自主研发了全维监控与智能运维基础平台(UAVStack)。web
做为智能监控平台,监控仅仅是智能化运维的第一环。咱们认为,智能运维(AIOps)能够分三步走:全维监控、全维关联和全维智能。算法
使用UAV的全维监控和应用性能管理工具集能够搭建一站式全维度监控+应用运维解决方案。数据库
首先,UAV在每一个物理机、虚拟机以及容器上部署一个监控代理程序(MonitorAgent,MA)。MA其实是部署在宿主机上的独立JVM进程。浏览器
其次,在每一个JEE中间件、JSE应用或其余JVM语言应用中,可经过Java Agent的形式植入监控探针,监控探针会与应用在同一个JVM进程中一块儿启动。缓存
监控探针启动时,会自动对应用进行画像和监控。应用画像包括服务组件、客户端组件和日志组件的画像。安全
除对以上三类组件进行自动画像和实时数据采集外,监控探针也会记录每一个请求/响应生成端到端的调用链路,绘制各个应用/服务之间的调用关系,并生成服务图谱。
监控代理程序(MA进程)会定时拉取监控探针采集的数据,同时也会采集应用环境的性能指标(如CPU、内存、磁盘IO等)。此外,MA还提供了插件机制,支持个性化指标的采集。
最终,咱们采集到了包括指标Metrics、调用链Tracing及日志Logging的全维度监控数据。其中:
UAV采集侧主要包括监控Agent和监控探针两部分。
上图所示是监控探针的架构图。随着UAV功能的加强,探针已不只仅用于监控目的,如今已经更名为中间件加强框架。
上图左边能够看到,中间件加强框架位于应用服务器和应用之间,采用了中间件劫持技术,对应用服务器的代码进行了类加载劫持和字节码改写,对上层应用代码无侵入。
右边是监控探针放大以后的架构图,最底层是应用服务器适配层,对互联网经常使用的开源中间件(如Tomcat、Jetty、SpringBoot)提供了适配支持,对其它服务器能够相应地扩展一个Adapter适配器来进行支持。
在适配层之上,首先提供了一系列通用的扩展点SPI,再基于这些SPI,扩展出了与监控相关的画像收集和指标采集功能;与问题诊断分析工具相关的调用链跟踪、浏览器跟踪、JVM线程分析、堆内存dump执行等功能;与服务治理相关的服务限流/降级以及服务安全管控等功能。此外,还提供了这些功能对Docker和K8s容器环境的适配。
最上层提供了应用对接API以及数据发布API,支持经过HTTP和JMX两种方式来获取探针上的监控数据。
接下来将介绍UAV数据捕获和传输的架构。
从上图能够看到,监控代理程序Agent数据传输采用了双通道+双心跳的方式:
1)双通道是指HTTP心跳和MQ传输这两条通道:
2)双心跳是指无论来自Http通道仍是MQ通道的数据,实际上既能够当作监控数据,也能够当作心跳数据。来自每一个通道的数据都会到UAV监控后台服务“签到”。两种通讯方式意味着更高的可靠性。
Agent经过双通道的方式,将数据传输到UAV监控后台,咱们称之为健康管理服务。
健康管理服务会根据数据类型对监控数据进行解析处理,并分别持久化到合适的数据源,好比OpenTSDB存储时序指标数据;ES存储日志、调用链、JVM线程分析等APM数据。
AppHub是UAV的统一门户,提供了监控数据的集中展现及用户权限的管理功能。用户能够在PC端和移动端登陆UAV,得到随时随地的运维体验。
健康管理服务也是采用微服务架构构建的,包括多个微服务,支持集群部署和扩容。
上图展现了目前UAVStack的核心功能,主要包括:应用监控、应用环境监控、服务流、调用链、JVM监控、数据库监控、日志监控、性能告警、浏览器跟踪、配置中心、时空沙盘、上帝罗盘、服务治理、容器生态支持、业务监控、智能运维(AIOps)等。其中:
此外,还包括图上未列出的一些运营支持的相关工具,如UAV统一升级中心;UAV监控日报、周报、月报;UAV使用状况统计等。本次分享将重点介绍上图中白色字样的功能。
首先介绍UAV应用监控的核心原理。
UAV应用监控的核心原理是:对应用代码无侵入技术。
UAV的代号是“无人机”的缩写,寓意:无人机翱翔蓝天,智能地、透明地完成任务。
其中用到的核心技术主要包括:
监控探针经过中间件劫持技术实现对应用/服务的自动画像和监控。
以应用/服务画像为例:
与应用/服务画像相似,应用/服务监控也是在加载服务器相关类时,经过字节码改写植入相应的监控代码。
以Tomcat为例:
上图所示是应用监控的一个实际展现界面。
能够从应用集群的展现界面,钻取到应用实例的监控展现界面,再钻取到自动画像出来的服务组件/客户端组件和日志组件的展现界面,最后再钻取到服务组件/客户端组件的每一个URI的监控指标界面以及日志展现界面。能够从全局钻取到细节,获取想看的监控数据。
此外,咱们还提供了服务URL监控报表和客户端URL监控报表。
以服务URL监控报表为例:
如上图,点击查看某个URL的详情,能够查看该URL在不一样时间区间的详细报表。
接下来介绍服务流相关的功能。基于应用/服务画像和监控数据,UAV提供了服务流的功能。服务流涵盖了应用拓扑的内容,但提供了比应用拓扑更丰富的运行时状态的展现。
从上图能够看到,当前服务位于中间位置,左边是调用当前服务的服务,右边是当前服务调用的其它第三方服务。
在服务流图上,连线的粗细表示调用量;连线的颜色表明健康情况,以响应时间和错误数为参考:绿色表明健康、黄色表明警告、红色表明严重。好比当连线为粗红线时,表明着有大量请求发生了错误。
如图,咱们能够从全局的服务流钻取到某个业务线的服务流,再钻取到该业务线下某个应用集群/实例的服务流,进行全局范围的性能追踪。
调用链分为轻调用链、重调用链和方法级调用链。
上图展现的是一个调用链具体的生成流程。调用链节点主要是在服务接口代码处和客户端调用代码处生成。若是开启了方法级调用链,也会在过程方法代码处生成调用链节点。
此外,介绍一下关于调用链上下文的传递。
服务内上下文的传递:同线程的状况下使用了基本ThreadLocal;跨线程(池)的状况下使用了可传递ThreadLocal(TTL)。
服务间上下文的传递:经过客户端劫持(client hook)对原协议(如HTTP,RPC,MQ)进行适配,并在协议头注入调用链上下文的元数据。传输到下一个服务接口的时候,会由下一个服务解析协议头里的调用链上下文元数据,从新构建调用链上下文,而后再继续往下传递。
调用链的实现主要使用了4个关键技术。
这是调用链的实际展现界面。在调用链列表上,
开启了重调用链的状况下,咱们能够查看请求/响应报文的详细数据。
上图中能够看到,开启了重调用链的状况下,咱们能够获取到请求头信息、请求内容、响应头信息、响应内容等详细数据。
上图所示是UAV日志功能的架构图。UAV日志功能采用了日志管理系统流行的EKK架构,包括日志的采集、上送Kafka、ES存储/查询、RAID历史备份/下载以及基于异常/关键字和时间的统计和告警功能。
应用服务器上的Agent采集、读取日志,并把读取到的数据发送到Kafka集群上。
日志的统计和告警功能:由logging-statistics程序从Kafka读取异常、关键字、Nginx日志,并以分钟为单位统计数量,保存到Redis中,供后续统计展现和告警。
具体日志展现界面在介绍调用链关联到日志部分已出现过了,这里就不赘述了。
UAV获取到全维度的服务端指标集、客户端指标集、日志指标集和自定义指标以后,能够设置多指标联合告警条件,这些条件包括流式/同比/环比的条件(“同比”好比今天10点和昨天10点的对比;“环比”好比最近5分钟和上一个5分钟的对比),能够混合使用构成联合表达式。
为避免告警轰炸,UAV提供了2种告警收敛策略:时间冷却收敛和梯度收敛。梯度收敛策略上,咱们配置了“1”“5”“10”,即第1次、第5次、第10次知足告警条件时才会发送告警提醒,其余时间则进行压制处理,不发送告警提醒。
告警可经过短信、邮件、微信及移动App推送通知到人,也能够经过HTTP方式通知其余系统。
建立预警策略时,可使用预警策略模板。上图是系统里的预警策略模板截图。
选定策略类型以后,预警策略的规则和条件会根据咱们缺省推荐的套餐自动设置,用户只要配置须要报警的目标范围和通知方式,直接保存就能够了。也能够调整模板套餐里的阈值和报警表达式。此外,告警也支持运行时动态启用和禁用。
JVM监控分析工具基于UAVStack已有总体架构,如上图所示。总体分为前端、后台及探针MOF部分。
其中在探针部分:
上图是JVM监控分析工具的监控功能展现页面。JVM监控分析工具的功能主要包括:
区别于传统的数据库端的监控,UAV的数据库监控采用新的视角,从应用端切入分析,弥补了现有数据库端监控的不足,增长了数据库-应用的关联分析能力。
数据库监控目前已实现的功能包括:数据库链接池监控、SQL分类统计、慢SQL统计、慢SQL耗时分布统计、慢SQL追踪以及与调用链/日志关联。
慢SQL的监控功能主要包括慢SQL统计+慢SQL追踪。对慢SQL的监控,能够自主设定阈值,界定多慢才算是慢SQL。用户能够按具体应用和它操做的数据库实例来设置,高于设置阈值的SQL操做才计入慢SQL。
在开启调用链/日志归集的状况下, 慢SQL操做可关联至对应的调用链以及日志,帮助咱们诊断和定位问题。
上图是数据库监控功能的慢SQL统计报表,展现了某段时间以内慢SQL的计数状况。慢SQL分类统计根据SQL类型,包括I-插入、D-删除、U-更新、Q-查询、B-批量操做,对慢SQL进行分类统计。
图中下方两个报表中,一个是数据库链接池监控,能够查看链接池总链接数、活动链接数以及空闲链接数;另外一个是SQL分类统计,能够根据SQL类型来分类统计。
经过某外购催收系统的数据库监控案例来讲明数据库监控的使用方法。
催收系统在查询催收历史时,统计记录数的count(*)语句,由于执行计划异常,执行效率低,占用了大量资源,致使数据库服务器CPU资源耗尽,进而系统不可用。从图上能够看到,故障期间的慢SQL数目明显变大,慢SQL具体为count(*)语句。
上图能够查看到慢SQL的详细SQL语句,得知故障期间的链接池资源被耗尽,活动链接数达到峰值,而空闲链接数为0;SQL分类统计图表也显示故障期间查询错误SQL数量明显变大。
经过慢SQL追踪界面,能够查看故障期间的慢SQL列表,发现执行时间长的三条SQL全是count(*)语句。
每一条慢SQL的执行结果及SQL语句均可以与调用链关联。继续点击,查看慢SQL详情及与调用链关联,均显示了count(*)语句执行时间长,且执行错误。经过慢SQL的执行与调用链、日志的关联,能够辅助定位和分析故障问题。
对容器生态上的支持是指UAV以上全部功能都能在容器云平台上无缝迁移和使用。在容器环境下,监控Agent和应用分别在不一样的容器中,须要作一些适配工做,主要体如今应用画像/监控数据的采集、进程画像/监控数据的采集、日志采集路径的适配上。
UAV以上全部功能都能在容器云平台上的无缝迁移和使用,因此从UI上看不出来和VM有何区别,仅在应用环境监控界面上有些不一样。上图截取了Kubernetes环境下的应用环境监控界面,能够看到一个物理主机上有10个主机进程、17个容器、28个在容器里的进程。
应用环境监控能够显示容器和进程的对应关系。可点击分别查看容器性能指标和进程性能指标。
在容器或进程的属性列表里,新增了K8S相关的属性展现。这是在容器云环境下,咱们能够从应用环境监控UI中看到和VM环境下的些许差别。而对于其它功能(如调用链、日志监控、数据库监控,等等)而言,界面在容器环境下和VM环境下是没有任何区别的,用户感受不到差别。
为了弥补监控广度上的不足,UAV目前提供了指标采集插件,支持已有的Open-Falcon的指标采集插件(相似Prometheus的exporter),也支持UAV自定义插件,使UAV监控能力可灵活扩展到对几乎全部经常使用的互联网中间件的监控,如MySQL、Redis、Kafka、RocketMQ、MongoDB、ElasticSearch等。
上图展现了UAV对Kafka、RocketMQ、Redis指标的监控曲线。
宜信公司业务大多跨多个业务线和多个系统,为在IT层面能够快速定位问题系统,在业务层面上也能够给出受影响或波及的具体业务单据和客户范围,解决业务/运营人员的痛点,UAV提供了一套通用的业务链路监控与告警接入平台。
如图所示,该平台包括异构业务日志归集、数据上送、数据切分、过滤、聚合计算等功能,以后能够将结果持久化,提供业务报表大屏展现,也能够根据结果告警,生成业务工单。
实施过程当中,各业务组先在应用中埋点具备业务涵义的日志,而后自助配置和维护对业务日志的解析逻辑、具体的告警策略和告警消息模板内容,从而能够快速搭建针对自身业务的链路监控系统。
这套业务监控系统的优点在于:
这是一个业务告警的具体例子。
上方是发给业务同事的告警邮件,内容能够细化到X年X月X日X:X:X,在X个系统的X个业务环节,发生了X问题,影响了X类型的客户,客户姓名是X,手机号是X。帮助业务运营人员快速定位问题单据和受影响的客户。
下方是发给技术运维同事的邮件,在业务同事邮件的基础上,额外提供了IT调用链路,方便技术运维同事快速定位和诊断问题。
目前UAV在AIOps智能运维上的工程实践主要包括异常检测,根因分析,告警收敛和智能降噪,以及任务机器人HIT这4个方面。本次分享将重点介绍指标异常检测和根因分析两部分。
上图是UAV工程实践中使用的较流行的时间序列异常检测框架。主要包括离线模型优化、在线模型预测、A/B TEST部分。其中,离线模型优化和在线模型预测造成了指标异常检测的智能监控闭环。具体流程如图所示,其中要点包括:
按照全维监控->全维关联->全维智能的技术路线,UAV采集到了多维度的监控数据后,须要创建起这些数据以前的关联。
这种关联关系:
须要说明的是,金融行业自己的业务特色决定了对第三方存在依赖性,所以告警的随机性较大,客观上致使学习样本的质量不高。所以,UAV目前使用强关联关系。
有了关联关系,就能够作根因分析了。咱们能够收集各个渠道的告警,先经过告警过滤将其中重复的告警和不重要的告警过滤掉,再根据关联分析创建同一时间窗口内不一样类型告警之间的关联,能够按画像创建关联,也能够按调用链路创建关联。而后是权重计算,根据预先设置的各种告警的权重,计算成为根源告警的可能性。最后将权重最大的告警标记为根源告警。此外,还能够根据历史告警处理知识库,找到相似根源告警的推荐解决方案。
在根因分析和定位的过程当中,顺带实现了告警收敛和智能降噪。好比咱们对重复告警、非根源的通常告警、同一条链路的其它告警进行了压制。
上图为线上实际的宜信核心业务线调用关系的图谱。UAV做为宜信的公司级智能监控标准软件,已持续覆盖到宜信全部关键业务系统,支持公司超过300个业务线。愈来愈多的同事能够熟练地使用UAV,将UAV应用于平常运维、事前预警、事中问题诊断和过后复盘分析等各个方面。
使用UAV,能够得到随时随地的运维体验。目前UAVStack监控部分已在GitHub上开源,能够登陆查看更多详细介绍。