磁盘阵列及MSCS的维护

详细描述本人在使用IBM磁盘阵列及MSCS的平常维护方法,并对可能出现的问题说明了解决方法。ios

 

1、 磁盘阵列的维护服务器

 

基本知识ide

一、阵列的四种主要状态:工具

。Online(在线):Cluster中有控制权的节点的阵列状态。ui

。Offline(脱机):Cluster中无控制权的节点的阵列状态,或有控制权,但处于脱机状态。spa

。Critical(临界状态):在Cluster中,处于此状态的阵列不容许进行切换,必须在原来有控制权的机器上对阵列进行恢复,即进行Rebuild或其它恢复操做。命令行

。Blocked(阻塞状态):只出如今RAID0级别中。在Cluster中,处于此状态的阵列不容许进行切换或读写操做,必须在原来有控制权的机器上对阵列进行恢复。ip

 

二、磁盘的两种主要状态:资源

。Online(在线):硬盘灯为绿色或指示灯不亮(与阵列柜型号有关)。此时阵列的状态为Online。同步

。 Defunct(非在线、失效):硬盘灯为红色。此时阵列的状态为Offline、Critical或Blocked。

 

三、每次切换后,磁盘阵列都会进行一次数据的同步,此时硬盘灯出现有规则的闪烁,持续时间大概为2小时左右(与阵列容量有关)。同时仍然能够进行其它操做,可是必定不能断电或进行热插拔操做,不然阵列信息将丢失。

 

四、硬盘的Firmware版本查看:

在ServeRaid Manager的物理磁盘组中,点击要查看硬盘,屏幕上将显示该硬盘的的Firmware版本号。

说明:版本要求为1.09(或S96E)以上。

 

五、阵列卡的Firmware及Bios版本查看:

在ServeRaid Manager中,点击要查看的控制卡,屏幕上将显示该阵列卡的Firmware 及Bios版本号。

说明:Firmware版本应为3.70以上、 Bios版本应为4.0以上。

 

现象观察

      一、查看阵列柜的前面板的状态灯提示

通常阵列柜中硬盘有两个指示灯,一个为状态灯(红),一个为硬盘读写指示灯(绿)。

。若干磁盘的绿灯不规则闪烁表示为对该盘当前有读写操做(此时绿灯较亮),阵列为Online状态;

。所有磁盘的绿灯规则闪烁表示阵列做同步操做(此时绿灯较暗),阵列为Online状态;

。磁盘的绿灯全灭表示当前无操做,阵列处于Online状态;

。单个硬盘亮红灯表示此盘状态为DDD(不可用)或OffLine;

。某个硬盘绿灯及桔黄灯交替规则闪烁表示该盘正在Rebuild;

。两个以上硬盘亮红灯时表示阵列柜已坏,Cluster 必然当机。

 

二、经过ServeRaid Manager管理工具查看

在有控制权的节点启动ServeRaid Manager。

。控制器、逻辑盘处于OK状态;

。构成阵列的物理硬盘处于Online状态(若是存在Hot Spare盘,可看到本机的Hot Spare盘状态为Hot Spare,另外一节点的Hot Spare盘状态为Ready);

。若是存在Hot Spare 硬盘,则在Hot Spare 菜单中能够找到该硬盘;

。若是某物理硬盘状态为DDD,说明该盘已不可用,须要修复或替换;

。若是某块物理硬盘状态为Offline,表示该盘为脱机状态(未损坏);

。在RAID 一、RAID 1E、RAID 5及RAID 5E 中若是某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Critical,即临界状态;

。在RAID 0 中,若是某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Blocked,即阻塞状态,此时对硬盘不能进行任何操做,等待恢复完后,手工将Blocked 状态设为UnBlocked状态;

 

说明:无控制权的节点阵列中的磁盘状态为Defunct(Hot Spare盘为正常)。

 

磁盘异常状态处理

要求主机对磁盘阵列拥有控制权。

一、单个磁盘DDD状态,此时禁止Cluster切换(可关闭备机)。

说明:DDD状态并不必定表示硬盘物理故障,根据该盘的使用状况,有以下处理方法:

。该盘做为Array磁盘时,而且该节点存在Hot Spare盘 :当该盘失效时,Hot Spare 盘自动完成接管,阵列自动进入Rebuild状态,同时该盘状态转为Hot Spare。若是没有自动Rebuild,须要人工执行Rebuild 操做,完毕后,将该盘设置为Hot Spare状态。若人工Rebuild操做失败,可拔出此盘,隔一分钟后再插入磁盘柜中,重复上述操做;若是仍然失败,说明该盘可能存在物理故障。

。该盘做为Array磁盘时,节点无Hot Spare 盘;选中该盘,按鼠标右键,执行Rebuild操做,若操做失败,可拔出此盘,隔一分钟后再插入磁盘柜中,重复上述操做;若是仍然失败,说明该盘存在物理故障。

。该盘为Hot Spare 盘:选中该盘,按鼠标右键,执行Delete Hot Spare将此盘从Hot Spare状态删除,再将该盘从新设置为Hot Spare(也可以使用Replace and Rebuild进行)。若是操做失败,可拔出此盘,隔一分种后再插入磁盘柜中,重复上述操做;若是仍然失败,说明该盘可能存在物理故障。

 

二、单个磁盘Offline状态

手工设置为Online;若是不成功,先关闭备机(无控制权),再重启主机,而后从新设置为Online;若是还不成功,将盘拔出磁盘柜,隔一分钟后从新插入柜中,再次关闭备机(无控制权),再分别从新启动主机和备机。

 

如下两种状况先关掉B机,防止系统切换

三、两个盘 Offline状态

先将其中一个Online,所另外一个做Rebuild操做,完成后从新启动主机。

 

四、一个Offline,一个DDD

      将Offline盘设置为 Online,对DDD盘做Rebuild操做,完成后从新启动主机。

 

五、硬盘状态为Defunct时,可按下列步骤进行恢复

。打开ServeRaid Manager。

。 选中Defunct的硬盘,按右键。

。使用Replace And Rebuild对硬盘数据进行重建。

。按照屏幕提示,须要先将硬盘拔出,而后再插入。

 

磁盘阵列异常处理

一、当阵列处于Critical时,只需在原来有控制权的机器上对故障硬盘进行Rebuild便可。

 

二、当阵列处于Blocked时,做以下操做:

。为了保证对阵列的恢复,先将原来没有控制权的机器关闭。

。从新启动有控制权的机器,此时系统提示:按F4——修正错误;F5 ——接收当前配置。

。按F4修正当前的错误,将Blocked状态修正为Critical状态。

。系统自动对硬盘进行Rebuild。

 

硬盘Rebuild时的进度显示ServeRaid Manager中窗口底部的状态条中

 

2、MSCS的维护:

 

MSCS的维护与阵列的维护密切相关,若是阵列工做状态正常,则MSCS通常状况下也正常,可是若是Cluster 中的某些服务不能启动或损坏,MSCS可能发生工做异常。

如下是平常维护操做说明:

 

一、首先检查RAID的工做状态(经过IBM ServeRaid manager检查);

二、使用Cluster Administators查看每一个服务的工做状况,全部资源应为Online;

三、若是某服务或资源处于Offline状态时,先查明缘由,而后人工设置为Online;

四、若是磁盘或磁盘阵列工做异常,可按照磁盘阵列的维护进行处理;

注意:此时阵列处于Critical状态,应防止、禁止切换操做(采起关闭备机的办法)。

五、若是异外断电(全部设备所有断电),启动时按下列顺序启动系统:

。先启动阵列柜;

。阵列柜加电后,启动断电前属于控制状态的节点;     

。待彻底启动后,再启动另一个节点。

双机系统中存在主域控制服务器,应先启动主域控制服务器。

六、紧急状况下关机顺序以下:

。首先关闭处于备用状态的节点;

。再关闭处于控制状态的节点;

。最后关闭磁盘阵列。

原则上阵列柜不能掉电,特别是正在对进行阵列的读写操做时。

七、在特殊状况下,Cluster可能不能启动,通常状况下可能该节点对磁盘阵列无控制权,此时在命令行方式下执行ipshahto.exe文件,强行取得控制权。

 

此步骤建议在由技术人员指导下进行。

八、当硬盘正在Rebuild时,不容许切换;正在同步时,尽可能不要切换;

相关文章
相关标签/搜索