银行业应用系统监控的维度与目标

有效应用管理的三个维度

1、交易监控(响应时间、故障隔离)

  • 从用户体验的角度监控端到端交易
  • 追踪交易流
  • 隔离故障部件

2、应用监控(深入诊断、跨系统关联分析) 

  • 应用和中间件诊断
  • 应用性能分析
  • 深入到代码级的分析

3、资源监控(应用服务器监控、自动化响应) 

  • 对J2EE、MQ、Database等的监控
  • 应用资源消耗分析
  • 负载趋势分析

银行有很多业务系统都是复合应用(近几年大商行都已经转型分布式核心),一个典型的复合应用逻辑架构如下:

 

什么复合应用 

  • 由多个逻辑部件组成
  • 分布在多个主机或者服务器平台上
  • 各个部件之间通过多种接口类型相互连接
  • 为客户交易提供服务

复合应用有什么特点

  • 多层次 – 包括 HTTP / J2EE / BI / Legacy / RDBMS / Web Services
  • 通过Web访问以及利用J2EE 作为主要的应用平台
  • 需要业务集成中间件,例如WebLogic或者Tuxedo
  • 可能跨越公司的组织边界 

应用整体监控的维度:基础环境 

应用基本运行环境

配置环境:配置文件、配置参数

数据环境:基础数据、交换数据、业务数据量

应用日志:交易日志、错误日志

进程状态:进程数量、进程资源

服务状态:可用性检查

队列状态:队列长度检查

应用监控:

  -APP层监控

    --应用端口监控

          监控web服务端口(41、42、43、30、17、44)

    --应用进程监控

          监控RA、RMI服务个数、ebtimer服务(定时转帐服务)状态监控    

    --应用链路监控

          监控 tft 7777端口监听个数、TCP服务18000端口监听个数监控

    --证书同步状况监控

          两种状况下报警: 1.凌晨0点后,记录最近四次证书日志文件/app/src-mon/mon/rows-record.txt文件不存在时报警 2.监控时间点,同步证书文件日志文件/app/RA/workpath/statsyn/log/statSynLog.log行数等于20分钟前行数时报警 

应用整体监控的维度:负载情况

客户直接负载:例如网银等系统的外部客户直接访问负载请求情况

第三方负载:支付宝等第三方交易请求负载情况监测

内部系统间负载: 行内系统直接交易请求负载情况监测

应用整体监控的维度:交易情况

-应用交易处理能力

交易量统计分析:全天累计交易量、各时段分布数量与(历史峰值、上工作日)的对比、设定报警阀值 交易成功率统计:全天及统计周期(如:3分钟)的交易成功率情况。 

交易响应速度统计:全天及统计周期(如:3分钟)的交易相应速度(分交易类型)包括平均、最高、最低等,并与阀值比对。 

交易分布情况统计:全天及统计周期(如:3分钟)的交易分布情况,按照交易种类进行分布统计,考虑分布比例的报警阀值设定。            

上述统计,需要下钻分析各渠道、网点的分布情况。

应用整体监控的维度:关联状态

-应用关联状态监控

系统间同步关联:分服务关联、交易关联两个层面进行其状态及相应能力检测。

系统间异步关联:分数据、报文两种类型检测,系统间异步数据关联主要关注数据传输结果、时间等,报文关联主要关注报文队列情况等。

系统内关联状态:系统内部服务或者进程之间的关联调用状态、共用资源(队列、内存等)。

应用整体监控的目标

建立业务服务视图: 配置管理数据库可视化、分析故障对业务的影响、实时观察业务的健康状况。 

实现业务管理、知识管理与综合事件管理的关联,实现由传统的“资源监控”到“业务监控”的跨越: 实现知识库管理平台 实现知识库与事件处理平台的连接。

建立统一的监控报警管理平台: 整合现有的多种底层软件报警模块到整体监控报警管理平台。 统一信息接口 统一信息处理标准 统一监控报警展示窗口。

建立统一性能数据及状态的采集接口: 整合现有的多种底层软件采集模块到整体监控管理平台。 统一数据采集接口 支持多种采集方式(API、SOCKET、File、Script、HTTP、SNMP、log、ODBC、JDBC、JMX、WMI、CIM、ICMP、等)、支持多种代理方式(agent、agentless)、 统一的数据汇集及裁剪(DataWarehouse)、统一性能数据及状态展示窗口。

实现对业务系统IT基础设施与应用的整体监控,为建立面向客户感知的业务过程监控提供基础信息。

将日常繁琐、重复的日常检查和运维工作通过自动化手段,变手工为自动,逐步将运维人员从大量低级、没有技术含量的工作中解放出来,把以设施设备为监控重点的工作模式转变到以业务中心上来,将日常工作的重心转移到提升系统稳定性、优化业务过程的层面上来。

建立基于提升客户感知、以客户为中心的业务过程监控,通过对业务过程横、纵两个方向的持续检测和可用性分析,对存在性能瓶颈和可用性较差的环节进行针对性优化和提升,从而达到为客户提供高可靠、高可用的业务服务能力的目标,为改善客户感知和提升企业的服务形象提供有力保障。

建立规范、可量化的运维工作管理体系,通过故障管理、事件管理、问题管理、变更管理、发布管理、配置管理、服务级别管理、容量管理等流程的建立,全面规范企业内部的作业模式和工作流程,通过不断的优化和调整,为建立高效的企业运营管理机制提供电子化管理手段。