每一个企业都意识到监控工做的重要性,但80%企业的监控工做仍然处在监控的初级阶段。html
什么事高级阶段呢? 我认为高级阶段是监控与灾备系统打通融合一体。除此以外监控与开发密切相关,在开发阶段须要为监控数据采集作铺垫,每开发一个新功能就要想到将来这个功能是否须要监控,怎样监控。数据前期采集与数据挖掘很是重要,监控不只能作软件与硬件的性能分析,还能提供决策支持。ios
除了监控,另外一个息息相关的是自动故障转移,有兴趣能够看看个人其余文章 http://netkiller.github.io/journal/git
你在百度上搜索监控多半是一些开源或商业软件的安装配置指南。这些文章中会告诉你怎样监控CPU、内存、硬盘空间以及网络IP地址与端口号码。github
开源软件无非是 Nagios, Cacti, Mrtg, Zibbix ..... 这些软件在个人电子出书《Netkiller Monitoring 手札》中都有详细说明安装与配置方法。web
商业软件也有不少如 SolarWinds, Whit's Up,PRTG ......redis
全部的服务器,网络设备,监控你都作了,那么按照我上面的监控分级,你处于监控的那个阶段?服务器
监控都有哪些手段跟方式呢?网络
一般是经过IP地址访问远程主机,实施监控,经常使用方法是SNMP,SSH,以及各类Agent(代理),方式是请求而后接收返回结果,经过结果判断主机状态。运维
Monitor Server | ------------------------------- | | | [Web] [Mail] [Database]
以监控服务器为中心,星型散射链接其余监控节点,没有什么优势,缺点是Web跟Mail节点的通讯没有监控工具
这个词是我想出来的,不知道是否确切,一级一级的向下探测,寻找故障点
Monitor Server | ------------------------------- | | | V V V | | | [Web] ---> [Cache] ---> [Database] \ ^ `------------------------|
首先监控服务器跟星型拓扑同样监控,再让Web节点去访问Cache节点而后返回监控结果,以此类推,让Cache节点访问Database, 让Web访问Database节点。
将全部业务逻辑都逐一模拟一次,任何一个环节出现问题,当即发出警告。
这里主要监控服务是否可用,能够检查软件的工做状况,涉及测试环节。
经过自动化测试工具辅助监控,例如模拟鼠标点击,键盘输入,能够监控图形界面程序与网页程序。
Windows 监控能够经过 Windows Automation API实现,经过程序控制,可以模拟人工操做软件,实现操做匹配返回结果实现自动化监控
Web页面监控的方案就太多了,比较经典的是Webdriver衍生出的各类工具Selenium - Web Browser Automation最为出名。我经过这个工具模拟用户操做,例如用户注册,登录,发帖,下单等等,而后匹配返回结果实现自动化监控与报警
经过数据分析,将故障消灭在故障发生前。举一个例子,开发人员忘记设置redis 时间,虽然程序一直无缺工做,但redis内存不断增加,总一天会出现故障。
咱们经过采集redis状态信息,分析一段时间内数据变化发现了这个问题。
谈到监控不少人认为这是运维的事情,实则否则,不懂运维的测试不是好开发。
开发过程当中须要考虑到监控,例如Nginx的status模块, MySQL的show status命令, Redis的info命令,都是为监控预留的。那么你开发的程序是否考虑到了监控这块呢?
你能够经过日志形式或者管道,再或者Socket将程序的运行状态提供给监控采集程序。
好的监控的能让你对系统了如指掌,作到内心有数。有数据才好说话。
http://netkiller-github-com.iteye.com/blog/2190593