2016运维团队所需解决方案的5个关键因素

如今 SaaS 的发展势头已经没法抵挡,只要持有企业信用卡,任何人均可以顺利部署 SaaS 工具,并借助 API,在短短几分钟内链接其余重要应用。而且开发者掌握了许多自动化快捷处理方式——好比说 Application Insight 应用部署和 Mobile Insight 移动应用测试——这极大地节省了推出新应用程序的时间。然而,不少管理应用程序和基础设施的旧方法以及没法跟上 SaaS 发展的步伐。html

所以,企业转而采用各类专业监管工具——好比 NagiosZabbixSolarwindsAWS CloudWatch —— 旨在获取对堆栈不一样层次的深入认识。遗憾的是,这些工具难以实现交互的工做方式。各类监管工具的告警便层出不穷,数量之大,几乎让你分不清信号和噪音。ios

#####如何在噪音中准确寻获信号?服务器

对于运维团队来讲,只是单纯的获取告警实际上是远远不够的,由于咱们获得了太多的告警。事实上,源源不断的告警只会培养运维团队无视告警的能力(没法否定这是事实!)。当噪音很大时,你容易将不常见的信号也当成噪音。这可不是好事。运维

所以,运维团队须要智能的总体解决方案和可操做数据的解决方案,这样不只能自动处理超出人工可处理范围的任务,还能在收到可操做告警后知道该如何处理。jsp

2016运维团队所需解决方案的5个关键因素

为实现以上功能,结合告警平台的已上线的功能,以国外的 BigPanda 和国内的 OneAlert 为例,整合了运维团队须要的解决方案应该包括的 5 个关键因素工具

  1. 时间。运维团队须要掌握实时动态。比起容易过期的快照,运维团队须要轻松地掌握实时动态。可是,快照的优点在于可以让你比较今天和昨天甚至是前一周的数据,OneAlert 最多可提供 1 年的存储数据服务。测试

  2. 告警等级。若是你识别不了哪个告警是最重要的,你就不知道轻重缓急。通常分为严重、警告、提醒三个等级。htm

  3. 告警类型。针对告警目标和内容的关联度及过后影响,了解告警发出的真正缘由,从而肯定告警类型。事件

  4. 自动化和集成。当咱们没法解决告警的时候(多是不擅长处理该类问题,还多是没有时间处理!),咱们能够在集成的工单系统中提交工单,对一些简单的可自动化处理的问题,能够直接自动化处理,如重启服务器等。OneAlert 很是重视相关模块的开发。开发

  5. 剖析大蓝图。今天的 IT 基础设施并不存在任何孤岛。一个应用的告警是其余应用出现问题的信号。运维团队须要了解每个 IT 难题怎样串联在一块儿,又是如何相互影响的。剖析大蓝图必不可少。

综合以上 5 个因素,能够总结出提升运维团队维稳效率的 2 个关键因素:时间洞察力和补救时间。

两者之中,时间洞察力更为重要,这个过程耗时越长,企业宕机时间的成本就越高,生产力损失就越大。你有足够的信心去洞察吗?你知道如何才能解决问题吗?原有的监控工具忽略了补救时间的重要性。可是,请记住,若是咱们没法衡量它,咱们就没法改善它。所以,不断改进是运维团队紧跟时代步伐的惟一方式。

OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理全部IT事件,提高IT可靠性。想了解更多信息,请访问 OneAlert 官网 。

本文转自 OneAPM 官方博客

相关文章
相关标签/搜索