简介:封神-核心功能 | 钉钉告警+数据网关
①租户侧运维能力弱
问题:租户侧,客户没有有效途径,及时地获取实例级的状态、性能、容量的数据。
现状:每日固定时间,驻场须要人肉收集数据,钉钉定时推送给客户。
②问题排查效率低
问题:应用业务有问题,云平台产品正常,客户并不承认,须要帮助客户解决问题。
现状:发现应用实例出现性能、容量被打满的问题,这个排查过程每每冗长, 效率很低。
③监控能力缺失
问题:云平台监控不全,容量管理、性能管理等报表能力缺失。
现状:驻场须要经过大量人肉巡检,或者编写脚本。
④监控 方式时效性低
问题:业务侧总会优先于应用与云平台感知到故障,运维很是被动 。
现状:客户发现问题,通知应用,应用检查后,再溯源到云平台,排查链路串行而且低效。前端
①保障业务稳定
经过云产品的服务能力的变化状况及业务仿真模型的创建,提早预知客户业务健康度,低于基线后便会触发告警。
②SLA化展现
触发阈值自动报警,量化产品健康情况。算法
图1:系统架构图sql
封神系统架构如图1所示,分为CLIENT与SERVER端两大模块。数据库
SERVER端:部署在VPC内ECS上,系统框架为FLASK,分为数据处理与数据存储两大部分。json
①数据处理是指经过提供API接受CLIENT的数据并进行入库操做以及数据的前端展现。
②数据存储是指借助阿里云RDS数据库,对数据进行持久化操做做。api
图2:业务架构图安全
封神业务架构如如2所示,分为五大板块。架构
机器人建立方式可参考文后资料[1]了解详情。app
图3:姜子牙框架
图4:申公豹
图5:雷震子
图6:比干
图7:杨戬-1
图7:杨戬-2
图7:杨戬-3
图7:杨戬-4
数据网关分为两大模块:获取数据、接收数据。
获取数据分为告警数据、全量数据、性能数据。
①告警数据:分别对应钉钉机器人推送的告警信息,封装成相应的数据格式,以API接口形式对外提供数据。
②全量数据:数据库源表数据,不作任何加工处理,以API接口形式对外提供数据,可操做性较高。
③性能数据:产品性能数据会按期存储到时序数据库,存储时间长,可查询历史性能数据。
请求方式:POST请求
URL地址: http://{ip}:{port}/api/v1/sea...
ip:封神ecs\_ip
port:9170
PARAM:参数列表可查看文后资料[2]了解详情。
import sys import requests url = "http://{ip}:{port}/api/v1/search/monitor/" data = {"product":"MQ", "title":"积压告警", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"} res = requests.post(url=url, json=data) print res.content
curl -H "Content-Type:application/json" -X POST -d '{"type":"ALL"}' http://{ip}:{port}/api/v1/search/monitor/
①当前存在告警
{"code":0, "data":[{"info":"0.0.0.0,ecs,95% \n 0.0.0.1,ecs,95% ", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor\_time":"2020-01-14 00:00:00", "columns":"IP,产品,值"}]}
②当前未存在告警数据(告警恢复正常)
{"code":0, "data":[{"info":"", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor\_time":"2020-01-14 00:00:00", "columns":"IP,产品,值"}]}
③未查询到数据:
{"code":0, "data":[]}
④查询异常:
{"code":500, "data":"异常信息"}
请求方式:POST请求
URL地址: http://{ip}:{port}/api/v1/sea...
ip:封神ecs\_ip
port:9170
PARAM:参数列表可查看文后资料[2]了解详情。
import sys import requests url = "http://{ip}:{port}/api/v1/search/data/" data = {"product":"MQ", "title":"TIME", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"} res = requests.post(url=url, json=data) print res.content
请求方式:POST请求
URL地址: http://{ip}:{port}/api/v1/inf...\_query/
ip:封神ecs\_ip
port:9170
PARAM:参数为INFLUXDB SQL
import sys import requests url = "http://{ip}:{port}/api/v1/influxdb_query/" data = {"sql":"infudb sql"} res = requests.post(url, data) print res.content
请求方式:POST请求
URL地址:http://{ip}:{port}/api/v1/ins...
ip:封神ecs\_ip
port:9170
PARAM:
import sys import requests url = "http://172.0.0.1:9170/api/v1/insert/third/" data = {"title":"ecs性能监控", "level":"预警", "source":"云监控", "product":"ecs", "msg":"ip:10.0.0.1 cpu:98% ip:127.0.0.1 mem:99%", "robot":"姜子牙", "submitor":"高德臣", "monitor_time":"2021-03-10 16:00:00", "details":"兄弟 关注下"} res = requests.post(url=url, json=data) print res.text
图8:告警展现图
[1] 封神榜部署前置检查:https://yuque.antfin-inc.com/docs/share/d3a743db-af85-47d2-89c5-4f22eb1693c5?
[2] 获取封神数据-三方API:https://yuque.antfin-inc.com/docs/share/2037fbb2-35fa-42ad-8476-ec7502e9ed33?#
咱们是阿里云智能全球技术服务-SRE团队,咱们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提高业务稳定性。咱们指望可以分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。
本文内容由阿里云实名注册用户自发贡献,版权归原做者全部,阿里云开发者社区不拥有其著做权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。若是您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将马上删除涉嫌侵权内容。