软考架构师(10)——系统的可靠性分析与设计

全文连接:http://www.javashuo.com/article/p-ofmsztfa-gz.htmlhtml

1、可靠性概述

概念:

可靠性分析与设计时系统分析与设计、系统集成阶段应该重点考虑的问题。数据库

可靠度、可用度、可维度、平均无端障时间、平均故障修复时间及平均故障间隔时间服务器

可靠度计算:网络

系统故障模型 

故障千差万别,可是能够利用故障模型对其故障表现进行抽象数据结构

一、逻辑级的故障模型
二、数据结构的故障
三、软件故障和软件差错
四、系统级的故障模型负载均衡

系统可靠性模型

1:时间模型:性能

最著名的时间模型是由Shooman提出的可靠性增加模型,这个模型基于这样的假设:一个软件中的故障数目在t=0是是常数,随着故障被纠正,故障数目逐渐减小,在此假设下,一个软件通过必定时间的调试后剩余故障的数目可用下面的来估计操作系统

2:故障植入模型设计

其目的是以程序的错误数做为衡量可靠性的标准调试

3:数据模型

在数据模型下,对于一个预先肯定的输入环境,软件的可靠度定义在n次连续运行中软件完成指定任务的几率

3、可靠性设计(系统配置方法)

1:冗余技术

冗余机制主要分为:结构冗余,信息冗余,时间冗余,冗余附加

 

防止故障致使系统失效,两种技术: 
1)、故障掩蔽 
防止故障形成差错

2)、系统重组 
防止差错致使失效

这两种技术都创建在资源冗余的基础上。如前所述,资源冗余包括 硬件冗余、软件冗余、时间冗余和信息冗余。

(1)硬件冗余

硬件冗余最经常使用的是三模冗余(TMR),三个相同的模块接收三个相同的输入,产生的三个结果送至表决器。表决器为多数表决,一个故障,另两个正常,则输出正常结果。显然,正常的几率更大。

(2)信息冗余

信息冗余指的是在数据中附加冗余的信息以达到故障检测、故障掩蔽或容错的目的。 
应用最普遍的是 
一、海明校验码 
二、奇偶校验码(CRC)。

冗余技术中最经常使用的两种方法是重复线路和备份线路。重复线路指并联,双保险;备份则是失败还能补救。

自检常配合冗余一块儿使用。

2:容错技术

软件容错技术中若是遇到故障通常采起两种策略进行恢复:前向恢复策略和后向恢复策略

1)单机容错

(1)、自检

系统在发生非致命性故障时能自动发现故障和肯定故障的性质、部位,并自动采起措施更换和隔离产生故障的部件。

 (2)、冗余

2)双机热备份

一种软硬件结合的较高容错应用方案。由两台服务器和一个外接共享磁盘阵列柜、双机热备软件组成。磁盘阵列卡非必须,能够在这两台服务器中采起RAID(独立冗余磁盘阵列)卡来代替。

双机热备份方案中,操做系统和应用软件安装在两台服务器的本地磁盘,而数据则经过磁盘阵列集中管理和备份。一台服务器出现故障,另外一台顶上,实现服务不间断。

双机热备份采用“心跳”方法保证主系统与备用系统的联系。

双机热备份根据两台服务器的工做方式,有3种不一样模式:

(1)、双机热备

一台工做,一台时刻准备着。数据同时往两台机写入,保持同步。一旦工做机出现故障,备机经过软件自动或手工切换。
使用最广泛的方式。但因为备机可能长期空闲,浪费。

(2)、双机互备

两套相对独立的应用分别在两台服务器上运行,彼此互为备机。其中一台出现故障,则另外一台能够将对方的应用接管过来。
服务器性能要求高。

(3)、双机双工

集群一种形式。两台服务器均处于活动状态,同时运行相同的应用(区别于双机互备,双机互备的应用是不一样的),负载均衡,互为备份。
一般磁盘柜存储技术、WEB服务器、FTP服务器应用较多。

3:服务器集群

集群(Cluster)是由两台以上节点机(服务器)构成的一种松散耦合的计算节点集合,为用户提供网络服务或应用程序(包括数据库、Web服务和文件服务等)的单一客户视图,同时提供接近容错机的故障恢复能力。

1.集群的分类

(1)高性能计算科学集群:以解决复杂的科学计算问题为目的的集群系统,其处理能力与真正超级并行机相等,而且具备优良的性价比。

(2)负载均衡集群:使各节点的负载流量能够在服务器集群中尽量平均合理地分摊处理,这样的系统很是适合于运行同一组应用程序的大量用户。每一个节点均可以处理一部分负载,而且能够在节点之间动态分配负载,以实现平衡。

(3)高可用性集群:为保证集群总体服务的高可用,考虑计算硬件和软件的容错性。若是高可用性集群中的某个节点发生了故障,那么将由另外的节点代替它。整个系统环境对于用户是透明的。 

集群技术指一组相互独立的服务器在网络中组合成单一的系统进行工做和管理,从而提供高可靠性的服务。

大多数状况下,集群中的全部计算机拥有一个共同的名称,集群内任一服务均可被全部网络用户使用。

集群内各节点服务器经过一个内部局域网相互通讯,当一个节点发生故障,该节点所运行的应用被另外一个节点自动接管;若是一个应用服务故障,则该应用会被重启或被其余服务器接管。

3、备份与恢复

一、联机备份(热备) 二、脱机备份(冷备)

相关文章
相关标签/搜索