哪一种监控工具才是运维人的最爱？

时间 2019-12-06

标签哪一种监控工具才是最爱繁體版

原文原文链接

哪一种监控工具才是运维人的最爱？ios

那些指标须要监控？我能监控到什么？能监控到何种程度？或许这些问题连你本身都难说清楚。先看看运维兄弟们的现状。shell

1．运维现状数据库

传统企业的计算机运维是在用户使用计算机过程当中发现故障以后，通知运维人员，再由运维人员采起相应的补救措施。运维人员平常大部分时间和精力都花在处理简单且重复的问题上，并且因为故障预警机制不完善，每每是故障发生后才会进行处理，这种状况使运维人员的工做常常处于被动“救火”状态，这种被动的运维模式让IT部门疲惫不堪。运维质量如何提升？生产部门能对运维部有满意的评价吗？安全

目前咱们在运维管理过程当中缺乏明确的角色定义和责任划分，以及自动化的集成运维管理平台，以致于问题出现后很难快速、准确地找到缘由，并且在处理故障以后也缺少必要的跟踪与记录。服务器

2．隐藏在流量背后的秘密网络

网络接口的通端，流量的大小，已知足不了目前运维故障排除的须要。咱们须要将流量分析的更深刻，更细致。运维

图1 传统流量监控工具看表象分布式

不少漏洞利用攻击、ShellCode攻击都混杂着正常流量进入企业网层层防御关卡。要想知道每一个数据包中携带了什么内容，普通的摄像头已经失效，须要更强大的X透视相机-进行协议分析，只有准确理解事物的本质，才能对症下药，Shellcode攻击（下图是shellcode和botnet的实例）和各类蠕虫也是如此。工具

3.大数据时代下安全运维的新挑战性能

运维工程师们在大数据时代，下面对大量网络安全事件，若没有有效工具是没法完成分析工做，他们每每面对以下挑战：

1）天天出现巨大数量的安全报警，管理员很难对这些报警作出响应。

2）误报严重，管理员没法准确判断故障。

3）大量重复、零散而没有规律的报警，黑客的一次攻击行动，会在不一样阶段触发不一样安全设备的告警，这样致使报警数据之间在时间和空间上存在大量重复数据，若是不实现安全事件的关联处理，就没法有效的提升告警质量。

当出现这些问题的部分缘由是企业缺少事件监控和诊断等运维工具，由于若是没有高效的管理工具支持，就很难让故障事件获得主动、快速处理。市面上有不少运维监控工具，例如商业版的Cisco Works 2000、Solarwinds、ManageEngine以及专一故障监控的WhatsUp，在开源领域有MRTG、Nagios、Cacti、Zabbix、Zenoss、OpenNMS、Ganglia等。因为它们彼此之间没有联系，即使是你部署了这些工具，不少运维人员并无从中真正解脱出来，缘由在于目前的技术虽然可以获取计算机设备、服务器、网络流量，甚至数据库的警告信息，但成千上万条警告信息堆积在一块儿，让人根本没办法判断问题的根源在哪里，缺少对信息进行筛选、数据挖掘的能力,其实咱们并不缺乏工具，商业的也好，开源的也吧，一抓一大把，为何仍是用很差？真正缺乏的是分析数据的智能化。

另外咱们的查看各类监控系统须要屡次登陆，查看繁多的界面，更新管理绝大多数工做都是手工操做，即便一个简单的系统变动或更新，每每须要运维人员逐一登陆系统，当设备数量达到成百上千时，其工做量之大可想而知。而这样的变动和检查操做在IT 运维中每每天天都在进行，这无疑会占用大量的运维资源。所以，运维工做人员须要统一的集成安全管理平台已迫在眉睫。

过去仅靠几个“技术大拿”来包打天下已不能知足要求，企业须要一种安全的运维平台，知足专业化、标准化和流程化的须要来实现运维工做的自动化管理。由于经过集成监控系统能及时发现故障隐患，主动的告诉用户须要关注的资源，感知网络威胁，把故障消除在萌芽状态。这极大下降了运维人员的工做负担，最大限度地减小维修时间,提升服务质量。

4．人工整合开源工具

既然找不到合适的，咱们就把经常使用的开源工具集成到一个Linux平台，这不是就实现统一管理平台了吗？

人工整合开源监控系统的难点：

1．软件和依赖依赖问题难以解决。

2．各子系统界面重复验证和界面风格问题。

3．各子系统数据没法共享。

4．没法实现数据之间关联分析。

5．没法生成统一格式的报表。

6．缺少统一的仪表板来展现重要监控信息。

7．没法对网络风险进行检测。

8．各子系统维护难度，增大了运维成本。

实践中发现，这种方案首先遇到了性能问题，一些脚本周期性消耗了较多的CPU和I/O资源，因此没法作到实时数据分析。试想有多少且能投入大量人力、时间去开发一个未知的监控平台？

5．集成安全运维平台的选择

一个好的安全运维平台须要将事件与IT 流程相关联，一旦监控系统发现性能超标或出现宕机现象，就会触发相关事件以及事先定义好的流程，自动启动故障响应和恢复机制。还须要可以筛选出运维人员完成平常的重复性工做，提升运维效率。要实现这些功能都是常规监控软件Cacti、Zabbix所没法实现。

同时，还要求可以预测网络蠕虫威胁，在故障发生前可以报警，让运维人员把故障消除在萌芽状态，将所产生损失减到最低。总的来讲运维人须要可以在一个平台中实现资产管理、分布式部署、漏洞扫描、风险评估、策略管理、实时流量监控、异常流量分析、攻击检测报警、关联分析、风险计算、安全事件告警、事件聚合、日志收集与分析、知识库、时间线分析、统一报表输出、多用户权限管理的功能，这种集成开源工具到底有没有？它去哪儿啦？

目前市面上有两种产品可知足这样的要求，目前市面上的SIEM产品主要有HP Arcsight（后台挂Oracle库）、IBM Security QRadar SIEM和Alienvault的OSSIM USM，如今的问题是并不缺乏商业SIEM解决方案，在开源软件中OSSIM到是最佳选择。

不少人只是肤浅的认为OSSIM只是将一些开源工具集成到一个平台，在OSSIM中颠覆性创新主要在易用（容易安装、部署，容易使用，几乎不用本身写脚本）、分布式监控系统、响应威胁（OTX）、关联分析引擎、可视化攻击展现等。

Alienvault分为开源OSSIM和商业版USM两种，经过这一集成监控工具实现对用户操做规范的约束和对计算机资源进行准实时监控，包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用等内容，经过自动监控管理平台实现故障或问题综合处理和集中管理。

若是你即不想购买昂贵的商业软件，又不肯意投入大量精力进行开发，那么实现集成安全管理平台OSSIM就是惟一的选择,今天我刻苦钻研的OSSIM项目，极可能是你明天要作的事。

好了，咱们看看OSSIM可以为你带来怎样的体验？进入

看完后，有何感言？若是你想系统学习OSSIM，请关注我即将出版的第四本专著

《开源安全运维平台--OSSIM最佳实践》。