你须要的是持续的服务改进

时间 2019-12-07

标签须要持续服务改进繁體版

原文原文链接

IT 正在变得愈来愈重要，做为公司运做链条上的一环，公司治理框架要将本身的业务目标、业务框架向 IT 传递。IT再也不与基础建设和业务发展关联脱节，而是要紧密联系在一块儿的。html

所以，有效的 IT 服务方法，包括识别、区分优先次序以及解决影响业务应用的性能和可用性问题。面向应用与业务的管理，以及其性能分析正在变得愈来愈重要，由于终端用户依赖日益复杂的应用来实现关键业务交易。应用性能低下将下降生产力，影响客户满意度，并有损 IT 声誉，进而致使成本攀升、收入减小、IT 变得效率低下——这些问题一般比可用性问题更加严重。服务器

传统的管理与监测解决方案一般没法识别和解决应用性能问题的根源。事实上，最近在终端用户体验监测、依赖性映射和相关性方面的最新进展，已让 IT 运行经理可以更有效地监测和解决不知足服务水平的问题。这些技术帮助提升对整个网络、服务器（分布式和大型主机）和其它应用层的可视性，借助技术分析因果关系，从业务的角度肯定哪些响应该优先进行。实际上，即便基础架构测量指标仍然提供主要的故障和容量数据，强调重点也已从基础架构测量指标变成了业务测量指标。网络

问题和事件管理是面向应用与业务的管理的两个核心 ITIL（信息技术基础架构库，简称 ITIL）流程。事件管理（Incident Management）是当 IT 出现问题的时候解决它们，做为对服务质量下降的一种响应。事件管理的目标是恢复服务，对业务形成尽量小的影响。问题管理（Problem Management）强调识别和消除问题的根源。它经过改变服务和面向应用与业务的管理解决方案，增长了服务质量改进的概念。架构

面向应用与业务的管理解决方案一般是做为基础架构监测实践开始的，由 IT 机构的某个独立业务部门实施，缺少一致的目标。例如，网络团队可能要部署一个开源网络工具，以得到基础网络的可视性，而 Web 服务器团队则可能会从一个主流的服务器厂商那里部署一个服务器监测工具。然而，自上而下地设计一个面向应用与业务的管理方案要切合实际得多。使用这种方法，您先设想结果，而后将它应用于您选择的解决方案组件。框架

公司高层提供的资源支持和参与对于任何面向应用与业务的管理项目的成功都是相当重要的，由于这将要求来自多个 IT 部门的积极支持。更重要的是，这些部门对于项目的业务价值要有一致的理解，由于他们每一个均可能会面对新的企业可视性，对某些东西失去控制（应对问题的新流程），或者放弃一个最受欢迎的工具。开始一个小型的面向应用与业务的管理项目，选择一个战略性的应用，为业务全部者和 IT 机构阐明价值，大多数机构将会从中受益。这样一个项目的成功，将可以被一个更全面、收益更明显的解决方案利用。分布式

然而，咱们大多数人并非从临时拼凑开始设计 APM 解决方案；咱们已经拥有许多一直服务于咱们的目的的基础架构工具。那么，是什么将一系列「结合平台的」（platform-aligned）工具转变成面向应用与业务的管理解决方案的呢？尽管对于这个问题可能会有许多技术回答，可是，这里有两个最重要的主题：ide

业务一致性（business alignment）。全新的主要设计目标仍然应该从注重业务产出开始。对业务来讲，重要的将是终端用户的体验——这个可经过性能和可用性进行测量。工具
相关性和故障隔离（correlation and fault isolation）。对根源的可视性，是将基础架构提高至面向应用与业务的管理、真正理解基础架构测量指标如何影响业务生产力的关键。性能

很容易明白诸如终端用户体验（end-user experience，简称 EUE）和基础架构测量指标等业务相关的测量指标的相关性为什么如此重要。将终端用户体验到的性能问题与基础架构测量指标结合起来，隔离主要的根源，这能让 IT 小组快速准确地专一于问题的起源，同时避免对不相关的组件采起行动。经过适当的阈值调整，这为持续业务改进奠基了基础。一样地，经过 EUE 的相关性，以及受影响的用户数量和所在位置、天天交易的次数和业务价值，能够找到问题对业务的影响。设计

经过一系列基础架构工具构建面向应用与业务的管理解决方案，会带来集成和相关性方面的挑战；您须要对主要的单一供应商（single-vendor）解决方案进行评估权衡，由于供应商和定制化的多供应商（multi-vendor）解决方案构建和交付了集成。对于更小一些的部署，定制化的解决方案可能会更省钱，可是对于较大的实施，可扩展性和维护方面的考虑将会迅速改变价格。

在设计流程里，保持对终端用户交易响应时间的专一很重要。这有两个缘由。第一，性能分析和问题解决是为更好的了解以业务为导向的环境并提出重要意见。尽管在传统上，基础架构测量指标是知足事件和问题管理的数据，可是，这些基础测量指标和它们的阈值驱动警报在没有业务相关性的状况下可以变得几乎毫无心义。例如，对于一个 2M 广域网链接来讲，75% 的利用率到底是好仍是坏呢？当应用的性能降级时，这些组件级的测量还将总会被突出？其次，从对业务影响的角度来讲，IT 可以优先对事件做出响应是有价值的，它表明了向业务一致性迈出的重要一步。

一样重要的是，与技术和 IT 资源的成本相关的设计限制。许多面向应用与业务的管理项目不成功，是由于缺乏关注和支持，由于没法维持这一解决方案、没法适应基础架构的变化并没有法定义基于真实世界反馈的流程。

基线对于任何面向应用与业务的管理解决方案实施来讲多是最重要的技术成功因素之一。基线肯定了服务的正常运行，为设定警报起点提供了参考，并提供了有价值的趋势和容量规划信息，由于它们是真实的数据。

一般，面向应用与业务的管理解决方案会动态地为一些被观察到的测量指标构建基线；通过数天或数星期，这些基线趋于一个正常的定义。对于其它的测量指标，您极可能想要基于一段时间内的观察手动设定基线。将这些基线做为参考点，而后您就可以肯定性能阈值；当测量违反了特定的行为准则时，警报就会产生。至少在最初的时候，这些阈值极可能以一个超出基线的比例被设定。例如，当页面性能从基线下降 25% 的时候，就会引起一个警报。这些引起也极可能基于一个模板或一套规则被设定，可以包括更复杂的逻辑；再例如，当磁盘写队列在 60 秒内超出2至少5次的时候。
重要的、须要考虑的是哪些指标被监测，使用什么阈值；大多数的面向应用与业务的管理工具提供多种多样的测量选项，深刻的显示出可以被分散甚至误导的水平值。缺省值或特定平台的模板可能经过面向应用与业务的管理解决方案厂商、软件/硬件厂商、系统集成商或用户社区得到。然而，不管是什么资源，肯定这些阈值是否适用于您的特定环境都是很是必要的。尽管这一决定部分地可以在实施期间做出，可是大多数阈值的改进都是在运行期间实现的。

最后，咱们应该关注最终由 EUE 测量驱动的相关性能力。对于有效的相关性来讲，最重要的是理解依赖性或交易在系统里通过的路径。它也建议要注意测量时间。固然，不是全部的指标都可以被连续评估，所以有些是在一段时间内进行取样。这是一种检测广泛性问题的有效方法。然而，间歇的问题本质上可能会是短暂的，以致于它们在取样期间被隐藏起来。尽管这些一般只会带来更小的业务影响（由于它们以更小的频率影响更少的用户），可是它们本质上更难解决。交易「跟随」（following）——一般经过贴标签——可能对特定的环境是合适的，然而，暂时缩短的取样间隔时间为解决间歇问题提供一种更通用的方法。

成功的运行须要在稳定性和持续的服务改进（CSI）之间保持平衡。对许多企业来讲，仅仅只有在故障发生并严重威胁到业务的时候，CSI 才会成为一个项目。一旦该问题获得解决，这一律念又会当即被抛到脑后，直到下一个重大故障发生的时候才会被再次记起。一个更周全的 CSI 方法将在事件和问题管理方面带来明显的改善，帮助 IT 机构更好地解决和预防问题的发生。

正如以前说起的，面向应用与业务的管理成功的关键——既确保业务一致性，又能解决问题——在于相关性。一个强大的 CSI 流程强调去改进被监测到的并找到更合适的阈值。

考虑一个面向应用与业务的管理方案的实施，终端用户体验和基础架构指标要能被监测。当事件发生的时候——不管这个事件是由 EUE 警报引发的，仍是由于一个实际的终端用户——IT 人员都要将这一事件和它的根源关联起来。确认并修正敏感性或瓶颈——至少暂时要作到这点。若是瓶颈指标数据没有被监测到，那么，不管如何也要开始对面向应用与业务的管理进行明显改进来监测它。若是瓶颈指标数据被监测到了，那也要着手改进去调整警报阈值，所以下一次警报可以在用户抱怨以前就识别到问题。警报多是被动的——超过某一阈值的用户正在经历性能问题——也多是主动的——超出阈值给出了一个尽早的警告：若是用户继续这么作的话，他将会出现性能问题。

最终，持续的服务改进应该不止是经过改善面向应用与业务的管理解决方案的质量来改进业务服务的水平。它可能意味着，经过拨出额外的资源或者对资源的使用给予优先考虑来控制资源，以至瓶颈将再也不发生。

OneAPM 是应用性能管理领域的新兴领军企业，能帮助企业用户和开发者轻松实现：缓慢的程序代码和 SQL 语句的实时抓取。想阅读更多技术文章，请访问 OneAPM 官方博客。