成为运维界的「福尔摩斯」，你还须要3个帮手！

时间 2019-12-13

标签成为福尔摩斯还须帮手繁體版

原文原文链接

夏洛克·福尔摩斯，一直以来柯南道尔笔下的福尔摩斯形象在人们的脑海中都栩栩如生。敏锐的观察力，缜密的推理思路，丰富的专业知识，一切扑朔迷离的刑事案件在他手中都能迎刃而解，一切的竞争对手在他面前都如此的黯然失色。他有一双可以看穿世界的眼睛，被他关注的人都好像身体上被安装了监控，全部的行动他都了如指掌。在福尔摩斯的领域中，任何的异动都掌握在他的手中，而且这些异动信息会第一时间到达他的手中。福尔摩斯教会了咱们，善于使用工具，可以让工做事半功倍。html

《血字的研究》一案中，一把直尺，一个放大镜等等都成为了破案的重要工具，一群野孩子提供的信息的效率远远高于警方所能提供的信息。再加上福尔摩斯全面的专业知识，最终将谜题解开。ios

如何利用简单实用的工具，再加上过硬的专业知识找到事实的真相呢？又如何成为运维界的福尔摩斯呢？运维的基本工做就是保障公司网站服务的可用性，服务器运行的稳定性。那么如何对网站可用性、对服务器的运行状态了如指掌？出现问题如何可以接收到精准的告警消息呢？web

请 mark 下面三款工具：数据库

Ct (Cloud Test) 主要是经过分布在全国各地的服务器对网站进行持续的监控，Ct 产品的价值在于网站管理员能够借此在终端用户或顾客发现问题以前发现问题，知道网站或 web 应用是否运行缓慢，甚至宕机。Ct 产品不涉及真实的网站流量，所以能够实现 7x24 小时的监控，或在正式发布 web 应用以前进行测试。经过 Ct 产品能够实时的了解网站在各个地域，运营商的性能表现，结合真实用户监控产品 Browser Insight，能深刻了解应用的健康情况。api

经过 Cloud Test，你能够：安全

单页面监控：分布全国的服务器对网页性能进行实时监控，提供网页可用性、响应时间、http 错误等具体信息，深刻代码级了解错误详情，可用于监控网页、我的站点，实时监控网页性能。服务器
Ping 监控：在运维人员的平常工做中，对物理服务器的监控十分重要。物理机的 CPU、内存、磁盘使用率，网卡流量，磁盘 IO 等都须要进行监控。经过 ICMP 协议的 ping 监控，能够判断物理服务器运行是否正常或者网站是否出现故障。网络不稳定或者服务器宕机， ping 就产生报警，让您在第一时间收到告警。这样大大提高了运维人员的工做效率。微信
API 监控：对于商务运算来讲一个比较稳定的趋势在于对 API 日渐增加的依赖性，几乎每个代码级交互过程都会调用 API 来收集数据或触发某些关键过程，这就带来一个问题，开发者怎么才能肯定开发者的应用是因为开发者本身的问题仍是因为第三方服务厂商的 API 问题，因此开发者须要API监控。网络
DNS 监控：监控 DNS 系统，防止网站 DNS 劫持（域名劫持）、域名过时或已被中止、域名 DNS 服务器未解析、域名解析记录为空或不正确等 DNS 服务器错误。运维

既然有了实时的网站可用性监控，那么对服务器的基础组件监控需求也是必不可少的。我推荐一些还在观望 Zabbix 和 Nagios 的初创团队，能够试一试 Cloud Insight。

Ci（Cloud Insight）集监控、管理、协做、计算、可视化于一身，减小在系统监控上的人力和时间成本投入，让运维工做变得更加高效、简单。使用 Cloud Insight 操做简单，40s完成安装，再配置上数据库中间件监控便可，其它的就直接在 Web 上查看，操做。

经过 Cloud Insight，你能够:

关注服务器内存，流量，CPU 等基本性能指标，天天均可以检测服务器性能，哪天数据有巨幅变化那就要赶忙查查是哪出问题了。
高可视化，关注数据库增删减查操做，慢查询等条件，主从复制状态，将关注的数据制定一个自定义仪表盘，顺道再设置个报警，这样数据库有任何异常，都会第一时间获得通知，及时相应处理。
集群管理与可视化，若是有多台服务器，这几台用做 webserver，这几台用作 database，那几台作 DNS，设置不一样的 tag ，经过拓补图分开聚合展现，分分钟总览集群全貌。
多人合做，对接简聊，BearyChat，瀑布等 ChatOps 工具，将操做事件流同步到多个即时通信里面，聚集报警、探针启动和操做历史记录于一身。可以让运维人员、研发人员、管理人员，甚至运营人员都参与到 Cloud Insight 这个工具的使用中来，沟通与协做效率更高。

有了强大的监控工具还不够，完善的报警通知体系也是相当重要的。OneAlert 做为国内首家云告警平台，可以轻松集成 Ct，Ci 产品，提供更合理的告警方式（固然 zabbix，nagios，阿里云等监控工具均可以集成）。

经过 OneAlert ，你能够：

合理的通知体系：

不一样的主机组告警消息发给特定的负责人，而且告警消息经过微信、短信、邮件、电话、App 的方式通知，通知必达。
不一样类型的告警消息发到不一样角色负责人手中，好比 MySQL 类型的告警消息咱们能够选择发给公司的 DBA 同事，而网络相关的告警消息咱们能够选择发给网络工程师等。
有效的告警升级机制可以保证告警不会被遗漏，告警在设置时间内不确认、不解决的时候，会升级到二线值班人员。

合适的时间选择合适的通知方式：

当告警消息来了，选择一个好的通知方式是相当重要的。好比白天工做时间，告警消息的推送只须要经过微信、邮件的方式。而晚上下班时间休息时间，告警消息推送能够选择短信和电话两种方式进行通知，灵活的通知方式可以达到事半功倍的效果。

健全的告警分析体系：

好的告警分析机制可以帮助管理者分析团队总体的工做状况，根据 MTTR 做为评判标准，经过告警分析可以分析出某一告警应用某段时间内处理状况。并且 OneAlert 的分析机制也能够根据应用、团队以及成员三个维度进行分析，让你真正认识你的工做团队。

从 Ct 对网站可用性的实时监控，再到 Ci 对服务器基础组件的实时监控，出现问题有 OneAlert 健全的报警机制，通知必达，网站服务有问题及时监控发现，告警消息多方式通知到位，服务器这点小事，你还怕什么？总有一款适合你。

本文系国内 ITOM 管理平台 OneAPM 工程师原创文章。咱们致力于帮助企业用户提供全栈式的性能管理以及 IT 运维管理服务，经过一个探针就可以完成日志分析、安全防御、APM 基础组件监控、集成报警以及大数据分析等功能。想阅读更多技术文章，请访问 OneAPM 官方技术博客

本文转自 OneAPM 官方博客