前言:安全
平安城市已是一个关系你我他的民生工程,但因为自己系统的复杂性,给运维工做带来了极大的挑战。如何保障摄像头在线率?如何在系统中找到视频系统故障的问题所在?在咱们某一次项目经历中,APM在发现问题,定位故障等方面,起了很大做用,帮助咱们顺利的定位到了系统的故障所在。服务器
平安城市是一个特大型、综合性很是强的管理系统,不只须要知足治安管理、城市管理、交通管理、应急指挥等需求,并且还要兼顾灾难事故预警、安全生产监控等方面对图像监控的需求,同时还要考虑报警、门禁等配套系统的集成以及与广播系统的联动。网络
处于平安城市系统核心地位的视频监控系统,架构复杂。组成系统有成千上万的高清摄像头、数以千计视频系统、数以百计的卡口系统、以及背后复杂的存储和管理系统;同时横跨多种网络,包括4G,以太网,光纤网。摄像头在线率,随时随地迅速调取视频,就是整个视频系统成效的关键指标。架构
最近接到客户反馈,视频网看起来挺正常,监控看到摄像头在线率也挺好,各个市级子系统检测结果都挺正常,但就是打开视频很慢。接到状况,优云立刻组织了技术人员前往。并发
>>>>业务请求跟踪,什么慢?运维
在初步了解后,咱们对视频应用平台总体结构进行了梳理,整个应用平台分红两个层次,省级和各个市级,多达十几个个子系统,这里咱们介绍一下主要的架构,而且选定关键路径侦听镜像。高并发
经过安装部署APM,跟踪观察省级SIP信令,横向综合比较请求多维度信息。咱们发现成功率和响应时间与请求量存在明显的关系,当请求量上升时,系统成功率大幅降低,而响应时间大幅上升。省级SIP请求次数与成功率、响应时间的变化关系以下图所示:视频
>>>>单次业务链跟踪,哪里慢?blog
在发现了请求响应迟缓以后,咱们进一步用APM单笔跟踪功能,跟踪单一次SIP请求过程,发现大量的错误和时延,肯定最终错误根源在某市级SIP服务器,即省级向市级发起SIP调用过程,市级返回错误,调用失败。ip
从一次摄像头视频请求的过程来看,从省级发起视频请求,到返回,市级SIP服务器响应时间过长。
>>>> 模拟分析,为何慢?
到目前为止,问题基本上锁定在市级的SIP服务器一端。咱们对市级的两万多摄像头巡检。发现成功率4.4%,有返回,可是错误返回9.6%,无返回超时86%。
从市级SIP服务器指令监控结果来看,一样发现成功率和响应时间与请求量存在明显的关系,当请求量上升时,系统成功率大幅降低,同时响应时间大幅上升。甚至有到1分钟以上。
是什么缘由致使了市级的服务器在处理连续请求,仅仅响应了部分请求以后就连续报出错误信息?咱们分析了市级SIP服务器的每次响应的时间和状态关系,最终发现高并发的状况下SIP服务器没有正确结束请求,释放资源,致使不能继续处理后续的请求。
事情终于有了一个结果,但对运维探索却才刚刚开始。因为通常客户的视频系统大量的采用了虚拟化,云化系统建设,使得传统运维,定点监测的方案在当前的系统架构下已经不能彻底胜任。运维如何跟上业务系统的敏捷开发的脚步?得益于优云前瞻的运维方案,快速的、敏捷的,动态跟踪用户的软件架构,有效的帮助定位和解决问题。
做者:刘成穆 就任优云软件资深架构师