详细描述本人在使用IBM磁盘阵列及MSCS的平常维护方法,并对可能出现的问题说明了解决方法。ios
1、 磁盘阵列的维护服务器
基本知识ide
一、阵列的四种主要状态:工具
。Online(在线):Cluster中有控制权的节点的阵列状态。ui
。Offline(脱机):Cluster中无控制权的节点的阵列状态,或有控制权,但处于脱机状态。spa
。Critical(临界状态):在Cluster中,处于此状态的阵列不容许进行切换,必须在原来有控制权的机器上对阵列进行恢复,即进行Rebuild或其它恢复操做。命令行
。Blocked(阻塞状态):只出如今RAID0级别中。在Cluster中,处于此状态的阵列不容许进行切换或读写操做,必须在原来有控制权的机器上对阵列进行恢复。ip
二、磁盘的两种主要状态:资源
。Online(在线):硬盘灯为绿色或指示灯不亮(与阵列柜型号有关)。此时阵列的状态为Online。同步
。 Defunct(非在线、失效):硬盘灯为红色。此时阵列的状态为Offline、Critical或Blocked。
三、每次切换后,磁盘阵列都会进行一次数据的同步,此时硬盘灯出现有规则的闪烁,持续时间大概为2小时左右(与阵列容量有关)。同时仍然能够进行其它操做,可是必定不能断电或进行热插拔操做,不然阵列信息将丢失。
四、硬盘的Firmware版本查看:
在ServeRaid Manager的物理磁盘组中,点击要查看硬盘,屏幕上将显示该硬盘的的Firmware版本号。
说明:版本要求为1.09(或S96E)以上。
五、阵列卡的Firmware及Bios版本查看:
在ServeRaid Manager中,点击要查看的控制卡,屏幕上将显示该阵列卡的Firmware 及Bios版本号。
说明:Firmware版本应为3.70以上、 Bios版本应为4.0以上。
现象观察
一、查看阵列柜的前面板的状态灯提示
通常阵列柜中硬盘有两个指示灯,一个为状态灯(红),一个为硬盘读写指示灯(绿)。
。若干磁盘的绿灯不规则闪烁表示为对该盘当前有读写操做(此时绿灯较亮),阵列为Online状态;
。所有磁盘的绿灯规则闪烁表示阵列做同步操做(此时绿灯较暗),阵列为Online状态;
。磁盘的绿灯全灭表示当前无操做,阵列处于Online状态;
。单个硬盘亮红灯表示此盘状态为DDD(不可用)或OffLine;
。某个硬盘绿灯及桔黄灯交替规则闪烁表示该盘正在Rebuild;
。两个以上硬盘亮红灯时表示阵列柜已坏,Cluster 必然当机。
二、经过ServeRaid Manager管理工具查看
在有控制权的节点启动ServeRaid Manager。
。控制器、逻辑盘处于OK状态;
。构成阵列的物理硬盘处于Online状态(若是存在Hot Spare盘,可看到本机的Hot Spare盘状态为Hot Spare,另外一节点的Hot Spare盘状态为Ready);
。若是存在Hot Spare 硬盘,则在Hot Spare 菜单中能够找到该硬盘;
。若是某物理硬盘状态为DDD,说明该盘已不可用,须要修复或替换;
。若是某块物理硬盘状态为Offline,表示该盘为脱机状态(未损坏);
。在RAID 一、RAID 1E、RAID 5及RAID 5E 中若是某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Critical,即临界状态;
。在RAID 0 中,若是某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Blocked,即阻塞状态,此时对硬盘不能进行任何操做,等待恢复完后,手工将Blocked 状态设为UnBlocked状态;
说明:无控制权的节点阵列中的磁盘状态为Defunct(Hot Spare盘为正常)。
磁盘异常状态处理
要求主机对磁盘阵列拥有控制权。
一、单个磁盘DDD状态,此时禁止Cluster切换(可关闭备机)。
说明:DDD状态并不必定表示硬盘物理故障,根据该盘的使用状况,有以下处理方法:
。该盘做为Array磁盘时,而且该节点存在Hot Spare盘 :当该盘失效时,Hot Spare 盘自动完成接管,阵列自动进入Rebuild状态,同时该盘状态转为Hot Spare。若是没有自动Rebuild,须要人工执行Rebuild 操做,完毕后,将该盘设置为Hot Spare状态。若人工Rebuild操做失败,可拔出此盘,隔一分钟后再插入磁盘柜中,重复上述操做;若是仍然失败,说明该盘可能存在物理故障。
。该盘做为Array磁盘时,节点无Hot Spare 盘;选中该盘,按鼠标右键,执行Rebuild操做,若操做失败,可拔出此盘,隔一分钟后再插入磁盘柜中,重复上述操做;若是仍然失败,说明该盘存在物理故障。
。该盘为Hot Spare 盘:选中该盘,按鼠标右键,执行Delete Hot Spare将此盘从Hot Spare状态删除,再将该盘从新设置为Hot Spare(也可以使用Replace and Rebuild进行)。若是操做失败,可拔出此盘,隔一分种后再插入磁盘柜中,重复上述操做;若是仍然失败,说明该盘可能存在物理故障。
二、单个磁盘Offline状态
手工设置为Online;若是不成功,先关闭备机(无控制权),再重启主机,而后从新设置为Online;若是还不成功,将盘拔出磁盘柜,隔一分钟后从新插入柜中,再次关闭备机(无控制权),再分别从新启动主机和备机。
如下两种状况先关掉B机,防止系统切换
三、两个盘 Offline状态
先将其中一个Online,所另外一个做Rebuild操做,完成后从新启动主机。
四、一个Offline,一个DDD
将Offline盘设置为 Online,对DDD盘做Rebuild操做,完成后从新启动主机。
五、硬盘状态为Defunct时,可按下列步骤进行恢复
。打开ServeRaid Manager。
。 选中Defunct的硬盘,按右键。
。使用Replace And Rebuild对硬盘数据进行重建。
。按照屏幕提示,须要先将硬盘拔出,而后再插入。
磁盘阵列异常处理
一、当阵列处于Critical时,只需在原来有控制权的机器上对故障硬盘进行Rebuild便可。
二、当阵列处于Blocked时,做以下操做:
。为了保证对阵列的恢复,先将原来没有控制权的机器关闭。
。从新启动有控制权的机器,此时系统提示:按F4——修正错误;F5 ——接收当前配置。
。按F4修正当前的错误,将Blocked状态修正为Critical状态。
。系统自动对硬盘进行Rebuild。
硬盘Rebuild时的进度显示ServeRaid Manager中窗口底部的状态条中
2、MSCS的维护:
MSCS的维护与阵列的维护密切相关,若是阵列工做状态正常,则MSCS通常状况下也正常,可是若是Cluster 中的某些服务不能启动或损坏,MSCS可能发生工做异常。
如下是平常维护操做说明:
一、首先检查RAID的工做状态(经过IBM ServeRaid manager检查);
二、使用Cluster Administators查看每一个服务的工做状况,全部资源应为Online;
三、若是某服务或资源处于Offline状态时,先查明缘由,而后人工设置为Online;
四、若是磁盘或磁盘阵列工做异常,可按照磁盘阵列的维护进行处理;
注意:此时阵列处于Critical状态,应防止、禁止切换操做(采起关闭备机的办法)。
五、若是异外断电(全部设备所有断电),启动时按下列顺序启动系统:
。先启动阵列柜;
。阵列柜加电后,启动断电前属于控制状态的节点;
。待彻底启动后,再启动另一个节点。
双机系统中存在主域控制服务器,应先启动主域控制服务器。
六、紧急状况下关机顺序以下:
。首先关闭处于备用状态的节点;
。再关闭处于控制状态的节点;
。最后关闭磁盘阵列。
原则上阵列柜不能掉电,特别是正在对进行阵列的读写操做时。
七、在特殊状况下,Cluster可能不能启动,通常状况下可能该节点对磁盘阵列无控制权,此时在命令行方式下执行ipshahto.exe文件,强行取得控制权。
此步骤建议在由技术人员指导下进行。
八、当硬盘正在Rebuild时,不容许切换;正在同步时,尽可能不要切换;