磁盘阵列及MSCS的维护

时间 2020-01-08

标签磁盘阵列 mscs 维护繁體版

原文原文链接

详细描述本人在使用IBM磁盘阵列及MSCS的平常维护方法，并对可能出现的问题说明了解决方法。ios

1、磁盘阵列的维护服务器

基本知识ide

一、阵列的四种主要状态：工具

。Online（在线）：Cluster中有控制权的节点的阵列状态。ui

。Offline（脱机）：Cluster中无控制权的节点的阵列状态，或有控制权，但处于脱机状态。spa

。Critical（临界状态）：在Cluster中，处于此状态的阵列不容许进行切换，必须在原来有控制权的机器上对阵列进行恢复，即进行Rebuild或其它恢复操做。命令行

。Blocked（阻塞状态）：只出如今RAID0级别中。在Cluster中，处于此状态的阵列不容许进行切换或读写操做，必须在原来有控制权的机器上对阵列进行恢复。ip

二、磁盘的两种主要状态：资源

。Online（在线）：硬盘灯为绿色或指示灯不亮（与阵列柜型号有关）。此时阵列的状态为Online。同步

。 Defunct（非在线、失效）：硬盘灯为红色。此时阵列的状态为Offline、Critical或Blocked。

三、每次切换后，磁盘阵列都会进行一次数据的同步，此时硬盘灯出现有规则的闪烁，持续时间大概为2小时左右（与阵列容量有关）。同时仍然能够进行其它操做，可是必定不能断电或进行热插拔操做，不然阵列信息将丢失。

四、硬盘的Firmware版本查看：

在ServeRaid Manager的物理磁盘组中，点击要查看硬盘，屏幕上将显示该硬盘的的Firmware版本号。

说明：版本要求为1.09（或S96E）以上。

五、阵列卡的Firmware及Bios版本查看：

在ServeRaid Manager中，点击要查看的控制卡，屏幕上将显示该阵列卡的Firmware 及Bios版本号。

说明：Firmware版本应为3.70以上、 Bios版本应为4.0以上。

现象观察

一、查看阵列柜的前面板的状态灯提示

通常阵列柜中硬盘有两个指示灯，一个为状态灯(红），一个为硬盘读写指示灯（绿）。

。若干磁盘的绿灯不规则闪烁表示为对该盘当前有读写操做（此时绿灯较亮），阵列为Online状态；

。所有磁盘的绿灯规则闪烁表示阵列做同步操做（此时绿灯较暗），阵列为Online状态；

。磁盘的绿灯全灭表示当前无操做，阵列处于Online状态；

。单个硬盘亮红灯表示此盘状态为DDD（不可用）或OffLine；

。某个硬盘绿灯及桔黄灯交替规则闪烁表示该盘正在Rebuild；

。两个以上硬盘亮红灯时表示阵列柜已坏，Cluster 必然当机。

二、经过ServeRaid Manager管理工具查看

在有控制权的节点启动ServeRaid Manager。

。控制器、逻辑盘处于OK状态；

。构成阵列的物理硬盘处于Online状态（若是存在Hot Spare盘，可看到本机的Hot Spare盘状态为Hot Spare，另外一节点的Hot Spare盘状态为Ready）；

。若是存在Hot Spare 硬盘，则在Hot Spare 菜单中能够找到该硬盘；

。若是某物理硬盘状态为DDD，说明该盘已不可用，须要修复或替换；

。若是某块物理硬盘状态为Offline，表示该盘为脱机状态（未损坏）；

。在RAID 一、RAID 1E、RAID 5及RAID 5E 中若是某一硬盘状态为DDD或Offline，则阵列或逻辑盘状态为Critical，即临界状态；

。在RAID 0 中，若是某一硬盘状态为DDD或Offline，则阵列或逻辑盘状态为Blocked,即阻塞状态，此时对硬盘不能进行任何操做，等待恢复完后，手工将Blocked 状态设为UnBlocked状态；

说明：无控制权的节点阵列中的磁盘状态为Defunct（Hot Spare盘为正常）。

磁盘异常状态处理

要求主机对磁盘阵列拥有控制权。

一、单个磁盘DDD状态，此时禁止Cluster切换（可关闭备机）。

说明：DDD状态并不必定表示硬盘物理故障，根据该盘的使用状况，有以下处理方法：

。该盘做为Array磁盘时，而且该节点存在Hot Spare盘：当该盘失效时，Hot Spare 盘自动完成接管，阵列自动进入Rebuild状态，同时该盘状态转为Hot Spare。若是没有自动Rebuild，须要人工执行Rebuild 操做，完毕后，将该盘设置为Hot Spare状态。若人工Rebuild操做失败，可拔出此盘，隔一分钟后再插入磁盘柜中，重复上述操做；若是仍然失败，说明该盘可能存在物理故障。

。该盘做为Array磁盘时，节点无Hot Spare 盘；选中该盘，按鼠标右键，执行Rebuild操做，若操做失败，可拔出此盘，隔一分钟后再插入磁盘柜中，重复上述操做；若是仍然失败，说明该盘存在物理故障。

。该盘为Hot Spare 盘：选中该盘，按鼠标右键，执行Delete Hot Spare将此盘从Hot Spare状态删除，再将该盘从新设置为Hot Spare(也可以使用Replace and Rebuild进行）。若是操做失败，可拔出此盘，隔一分种后再插入磁盘柜中，重复上述操做；若是仍然失败，说明该盘可能存在物理故障。

二、单个磁盘Offline状态

手工设置为Online；若是不成功，先关闭备机（无控制权），再重启主机，而后从新设置为Online；若是还不成功，将盘拔出磁盘柜，隔一分钟后从新插入柜中，再次关闭备机（无控制权），再分别从新启动主机和备机。

如下两种状况先关掉B机，防止系统切换

三、两个盘 Offline状态

先将其中一个Online，所另外一个做Rebuild操做，完成后从新启动主机。

四、一个Offline,一个DDD

将Offline盘设置为 Online,对DDD盘做Rebuild操做，完成后从新启动主机。

五、硬盘状态为Defunct时，可按下列步骤进行恢复

。打开ServeRaid Manager。

。选中Defunct的硬盘，按右键。

。使用Replace And Rebuild对硬盘数据进行重建。

。按照屏幕提示，须要先将硬盘拔出，而后再插入。

磁盘阵列异常处理

一、当阵列处于Critical时，只需在原来有控制权的机器上对故障硬盘进行Rebuild便可。

二、当阵列处于Blocked时，做以下操做：

。为了保证对阵列的恢复，先将原来没有控制权的机器关闭。

。从新启动有控制权的机器，此时系统提示：按F4——修正错误；F5 ——接收当前配置。

。按F4修正当前的错误，将Blocked状态修正为Critical状态。

。系统自动对硬盘进行Rebuild。

硬盘Rebuild时的进度显示ServeRaid Manager中窗口底部的状态条中

2、MSCS的维护：

MSCS的维护与阵列的维护密切相关，若是阵列工做状态正常，则MSCS通常状况下也正常，可是若是Cluster 中的某些服务不能启动或损坏，MSCS可能发生工做异常。

如下是平常维护操做说明：

一、首先检查RAID的工做状态（经过IBM ServeRaid manager检查）；

二、使用Cluster Administators查看每一个服务的工做状况，全部资源应为Online；

三、若是某服务或资源处于Offline状态时，先查明缘由，而后人工设置为Online；

四、若是磁盘或磁盘阵列工做异常，可按照磁盘阵列的维护进行处理；

注意：此时阵列处于Critical状态，应防止、禁止切换操做（采起关闭备机的办法）。

五、若是异外断电（全部设备所有断电），启动时按下列顺序启动系统：

。先启动阵列柜；

。阵列柜加电后，启动断电前属于控制状态的节点；

。待彻底启动后，再启动另一个节点。

双机系统中存在主域控制服务器，应先启动主域控制服务器。

六、紧急状况下关机顺序以下：

。首先关闭处于备用状态的节点；

。再关闭处于控制状态的节点；

。最后关闭磁盘阵列。

原则上阵列柜不能掉电，特别是正在对进行阵列的读写操做时。

七、在特殊状况下，Cluster可能不能启动，通常状况下可能该节点对磁盘阵列无控制权，此时在命令行方式下执行ipshahto.exe文件，强行取得控制权。

此步骤建议在由技术人员指导下进行。

八、当硬盘正在Rebuild时，不容许切换；正在同步时，尽可能不要切换；