【编者按】本文做者为 Sahil Khanna,文中介绍了现代企业经常使用的监控工具与模式,同时指出了其中的不足,以及更为完善的解决方案。本文系 OneAPM 工程师编译整理。运维
我喜欢参加行业活动和会议,由于在这些地方能够见到财富 1000 强的 IT 领导人,并且我总喜欢问他们同一个问题——“大家都在使用哪些工具?” 这是个颇有趣的问题,由于从他们的回答中我发现,大型 IT 企业目前所使用的工具数量多得惊人,并且我问过的全部人都在使用不一样的方式配置环境。ide
虽然大部分企业正在使用 Splunk、APPDynamics 或 NewRelic、OneAPM,可是他们使用这些工具支持业务服务的方式大相径庭,这多是由于不一样企业的每一项业务服务和出现的问题类型都彻底不一样。下图中的工具是我在数百遍的询问中常常听到的一部分:工具
我还喜欢问的第二个问题是——“你是怎样把各个监控工具里得到的信息联系起来的?” 从他们的回答中我发现两个共同点,分别与传统企业和数字化企业的监控配置有关,并且这两个共同点解释了一个更加严重的问题——为何客户老是比监控工具更早地发现问题。性能
我说的“传统企业”,主要是指金融服务、管理服务供应商、制造业、电信公司和联邦等企业组织。虽然你在看这篇文章的时候,它们可能正在经历重大的数字化转型,可是这些企业的 IT 环境、流程和许多工具实在是太“传统”了,由于它们的工具基本上都购买于上个世纪末和本世纪初,当时 IBM、HP 和 CA 等 MoM 供应商为运营管理整合了企业级套装。这些套装从概念上而言在当时很先进,但实际上只是各类不一样层级的工具集成的“大杂烩”。它们能够执行基础的降噪和事件关联,可是是经过基于规则的方式进行的,也就是说,你必须在问题发生前就预测到这个问题。能够想象这种要求会产生怎样的后果。并且,这些套装还很难配置和管理,要想使它们正常工做,还得再投入几百万美圆和几百个工时。blog
如今,转眼到了 2016 年,这些工具依旧是传统企业的核心 IT 管理层,究其缘由,是由“厂商锁定”这个堪称天才的商业策略致使的。虽然传统企业已经认识到新一代监控工具的价值,也花了巨资购买最好的工具集来提高服务质量。可是,与这些企业的IT运维团队交流时,我发现他们显然没有充分利用各个工具,而只是将一部分事件流发送至 IBM Netcool 或 CA Spectrum 之类的工具中供运维团队查看。他们被迫使用很小一部分事件,只能得到有限的可见性,由于遗留 MoM 没有如下功能:事件
1)扩展
2)集成新工具(没有标准的 API)
3)自动适应基础设施更改(须要手动创建或维护规则)开发
下图是我最近交流过的一个大型传统企业的监控图示。get
他们有40多种监控工具、1000 多个应用程序,天天生成约 200,000 个事件。他们使用 CA Spectrum 做为顶层管理系统,可是因为可扩展性和集成的限制,Spectrum 天天只能从 Splunk、Keynote 和Solarwinds 接收约 30,000 个事件。也就是说,事件覆盖率只有 15%!那这样的配置是怎样为他们工做的呢?好吧,对此他们表示,只有 7% 至9% 的事件是工具检测出来的,其余的都是客户发现的。你能够想像这些企业面临过多少次 SLA 违规、收入损失以及与日俱增的 IT 成本问题。博客
要想更深刻地了解和解决这个问题,推荐阅读 Intellyx 的杰森•彭博写的“受够了遗留监控工具?该换成可组合的 IT 监控了!”。产品
我认为,“数字化”就是软件即服务(SaaS)、媒体、电子商务、零售、在线、独立软件开发商,等等。与传统企业的关键不一样点在于,这些公司从诞生起就是数字化的,并且从一开始就没在遗留 MoM 解决方案上花过一分钱。这个特色使它们天生就具备灵活性和敏捷性,但同时也存在严重的缺陷。
我交流过的数字化企业为了知足自身独特的需求,一般都构建了一个庞大且最好的监控生态系统,可是却没有管理层将系统结合起来,如今他们开始感觉到如下问题的痛苦了:
1. 没有重复数据删除功能。可能你以为删除重复数据不重要,可是你得明白,即便事件总量只减小 25%,运维团队的查看量也会减小 25%。这就大大减小了工做量,显著提升了生产力。
2. 没有关联功能。若是没有一个工具自动告诉你,有两个或多个事件实际上与同一个问题相关,那么你可能会让不一样的团队独自研究同一个问题,于是浪费了宝贵的时间。
虽然 IBM、CA、BMC 和 HP 的遗留工具须要繁重的人工劳动才能实现这些功能,可是没有管理层的数字化企业则彻底与关联功能带来的益处失之交臂。
据我所见,数字化企业广泛使用电子邮件充当管理控制工具。下图是我曾交流过的一家数字化企业的监控示意图。
该企业使用电子邮件做为中央事件管理控制台。因为他们的支持团队很小,因而决定天天只发送来自 SiteConfidence Sythetics 的 500个事件,至于其余事件则所有忽略。这家数字化企业天天生成约 40,000 个事件,也就是说,他们只查看了约1%的事件。支持团队会仔细查看最关键的事件,人工删除重复数据并关联事件或告警,而后再适当地挖掘其余工具。可是这个过程极度耗费人力,并且又至关低效,最为严重的是,他们缺少对整个 IT 环境的可见性。当被问到他们的监控工具是怎样发现问题的时候,他们告诉我“大多数”事件都是客户而不是工具发现的。
在某些特定状况下,有些公司已经造成了本身的管理解决方案,可是我不多听到它们的负责人表示对服务质量有绝对的把握。
次时代数据监控与管理工具,如 OneAPM Cloudinsight 产品,能够帮助创业企业、服务提供商等实现最好的IT基础组件与其余数据监控,天天处理数十亿事件,以得到整个 IT 环境的彻底可见性。从本质上而言,次时代监控管理工具能够实现一体化监控与管理,可让你经过标签管理任意数据,机器,从而确保最优的服务质量和性能。
本文系 OneAPM 工程师编译整理。想阅读更多技术文章,请访问 OneAPM 官方技术博客。
本文转自 OneAPM 官方博客
原文地址:https://www.moogsoft.com/whats-new/todays-enterprise-failed-achieve-composable-monitoring/。