工做原理:两台主机同时运行各自的服务工做且相互监测状况,当任一台主机宕机时,另外一台主机当即接管它的一切工做,保证工做实时,应用服务系统的关键数据存放在共享存储系统中。
高可用性的衡量指标
可用性的计算公式:
%availability=(Total Elapsed Time-Sum of Inoperative Times)/ Total Elapsed Time
elapsed time为operating time+downtime。
可用性和系统组件的失败率相关。衡量系统设备失败率的一个指标是“失败间隔平均时间”MTBF(mean time between failures)。一般这个指标衡量系统的组件,如磁盘。
MTBF=Total Operating Time / Total No. of Failures
Operating time为系统在使用的时间(不包含停机状况)。
高可用性系统的设计
设计系统的可用性,最重要的是知足用户的需求。系统的失败只有当其致使服务的失效性足以影响到系统用户的需求时才会影响其可用性的指标。用户的敏感性决定于系统提供的应用。例如,在一个能在1秒钟以内被修复的失败在一些
联机事务处理系统中并不会被感知到,但若是是对于一个实时的科学计算应用系统,则是不可被接受的。
系统的高可用性设计决定于您的应用。例如,若是几个小时的计划停机时间是可接受的,也许
存储系统就不用设计为磁盘可热插拔的。反之,你可能就应该采用可热插拔、热交换和镜像的磁盘系统。
因此涉及高可用系统须要考虑:
决定业务中断的持续时间。根据公式计算出的衡量HA的指标,能够获得一段时间内能够中断的时间。但可能很大量的短期中断是能够忍受的,而少许长时间的中断倒是不可忍受的。
在统计中代表,形成非计划的宕机因素并不是都是硬件问题。硬件问题只占40%,软件问题占30%,人为因素占20%,环境因素占10%。您的高可用性系统应该能尽量地考虑到上述全部因素。
当出现业务中断时,尽快恢复的手段。
高可用性致使计划内的停机因素有
周期性的备份
软件升级
硬件扩充或维修
系统配置更改
数据更改
高可用性致使计划外停机的因素有
硬件失败
文件系统满错误
备份失败
磁盘满
供电失败
网络失败
应用失败
天然灾害
操做或管理失误
经过有针对性的设计,能够避免上述所有或部分因素带来的损失。固然,100%的高可用系统是不存在的。
建立高可用性的计算机系统
在UNIX系统上建立高可用性计算机系统,业界的通行作法,也是很是有效的作法,就是采用集群系统(Cluster),将各个
主机系统经过网络或其余手段有机地组成一个群体,共同对外提供服务。建立群集系统,经过实现高可用性的软件将
冗余的高可用性的硬件组件和
软件组件组合起来,消除
单点故障:
消除供电的单点故障
消除磁盘的单点故障
消除SPU(System Process Unit)单点故障
消除网络单点故障
消除软件单点故障
尽可能消除单系统运行时的单点故障