“高可用性”（High Availability）？？

时间 2019-12-11

标签用性 high availability 繁體版

原文原文链接

“高可用性”（High Availability）一般来描述一个系统通过专门的设计，从而减小停工时间，而保持其服务的高度可用性。数据库

计算机的高可用性安全

计算机系统的可用性用平均无端障时间（MTTF）来度量，即计算机系统平均可以正常运行多长时间，才发生一次故障。系统的可用性越高，平均无端障时间越长。可维护性用平均维修时间（MTTR）来度量，即系统发生故障后维修和从新恢复正常运行平均花费的时间。系统的可维护性越好，平均维修时间越短。计算机系统的可用性定义为：MTTF/(MTTF+MTTR) * 100%。因而可知，计算机系统的可用性定义为系统保持正常运行时间的百分比。

负载均衡服务器的高可用性

为了屏蔽负载均衡服务器的失效，须要创建一个备份机。主服务器和备份机上都运行High Availability监控程序，经过传送诸如“I am alive”这样的信息来监控对方的运行情况。当备份机不能在必定的时间内收到这样的信息时，它就接管主服务器的服务IP并继续提供服务；当备份管理器又从主管理器收到“I am alive”这样的信息时，它就释放服务IP地址，这样的主管理器就开始再次进行集群管理的工做了。为在主服务器失效的状况下系统能正常工做，咱们在主、备份机之间实现负载集群系统配置信息的同步与备份，保持两者系统的基本一致。

高可用性HA的容错备援运做过程

自动侦测(Auto-Detect)阶段由主机上的软件经过冗余侦测线，经由复杂的监听程序。逻辑判断，来相互侦测对方运行的状况，所检查的项目有：主机硬件(CPU和周边)、主机网络、主机操做系统、数据库引擎及其它应用程序、主机与磁盘阵列连线。为确保侦测的正确性，而防止错误的判断，可设定安全侦测时间，包括侦测时间间隔，侦测次数以调整安全系数，而且由主机的冗余通讯连线，将所聚集的讯息记录下来，以供维护参考。

自动切换(Auto-Switch)阶段某一主机若是确认对方故障，则正常主机除继续进行原来的任务，还将依据各类容错备援模式接管预先设定的备援做业程序，并进行后续的程序及服务。

自动恢复(Auto-Recovery)阶段在正常主机代替故障主机工做后，故障主机可离线进行修复工做。在故障主机修复后，透过冗余通信线与原正常主机连线，自动切换回修复完成的主机上。整个恢复过程完成由EDI-HA自动完成，亦可依据预先配置，选择回复动做为半自动或不恢复。

HA三种工做方式

（1）主从方式（非对称方式）

工做原理：主机工做，备机处于监控准备情况；当主机宕机时，备机接管主机的一切工做，待主机恢复正常后，按使用者的设定以自动或手动方式将服务切换到主机上运行，数据的一致性经过共享存储系统解决。

（2）双机双工方式（互备互援）

工做原理：两台主机同时运行各自的服务工做且相互监测状况，当任一台主机宕机时，另外一台主机当即接管它的一切工做，保证工做实时，应用服务系统的关键数据存放在共享存储系统中。

（3）集群工做方式（多服务器互备方式）

工做原理：多台主机一块儿工做，各自运行一个或几个服务，各为服务定义一个或多个备用主机，当某个主机故障时，运行在其上的服务就能够被其它主机接管。

高可用性的衡量指标

可用性的计算公式：

%availability=（Total Elapsed Time－Sum of Inoperative Times）/ Total Elapsed Time

elapsed time为operating time+downtime。

可用性和系统组件的失败率相关。衡量系统设备失败率的一个指标是“失败间隔平均时间”MTBF（mean time between failures）。一般这个指标衡量系统的组件，如磁盘。

MTBF=Total Operating Time / Total No. of Failures

Operating time为系统在使用的时间（不包含停机状况）。

高可用性系统的设计

设计系统的可用性，最重要的是知足用户的需求。系统的失败只有当其致使服务的失效性足以影响到系统用户的需求时才会影响其可用性的指标。用户的敏感性决定于系统提供的应用。例如，在一个能在1秒钟以内被修复的失败在一些联机事务处理系统中并不会被感知到，但若是是对于一个实时的科学计算应用系统，则是不可被接受的。

系统的高可用性设计决定于您的应用。例如，若是几个小时的计划停机时间是可接受的，也许存储系统就不用设计为磁盘可热插拔的。反之，你可能就应该采用可热插拔、热交换和镜像的磁盘系统。

因此涉及高可用系统须要考虑：

决定业务中断的持续时间。根据公式计算出的衡量HA的指标，能够获得一段时间内能够中断的时间。但可能很大量的短期中断是能够忍受的，而少许长时间的中断倒是不可忍受的。

在统计中代表，形成非计划的宕机因素并不是都是硬件问题。硬件问题只占40%，软件问题占30%，人为因素占20%，环境因素占10%。您的高可用性系统应该能尽量地考虑到上述全部因素。

当出现业务中断时，尽快恢复的手段。

高可用性致使计划内的停机因素有

周期性的备份

软件升级

硬件扩充或维修

系统配置更改

数据更改

高可用性致使计划外停机的因素有

硬件失败

文件系统满错误

内存溢出

备份失败

磁盘满

供电失败

网络失败

应用失败

天然灾害

操做或管理失误

经过有针对性的设计，能够避免上述所有或部分因素带来的损失。固然，100%的高可用系统是不存在的。

建立高可用性的计算机系统

在UNIX系统上建立高可用性计算机系统，业界的通行作法，也是很是有效的作法，就是采用集群系统（Cluster），将各个主机系统经过网络或其余手段有机地组成一个群体，共同对外提供服务。建立群集系统，经过实现高可用性的软件将冗余的高可用性的硬件组件和软件组件组合起来，消除单点故障：

消除供电的单点故障

消除磁盘的单点故障

消除SPU（System Process Unit）单点故障

消除网络单点故障

消除软件单点故障

尽可能消除单系统运行时的单点故障