上周在线监控系统nagios发送了一条报警警告短信,内容大致是磁盘阵列错误ios
因而乎登录报警服务器使磁盘阵列检测工具进行了详细的检查,报告显示数据库
Media Error Count :2 安全
既然是警告也就不是特别严重的错误,通过与戴尔工程师的确认,是磁盘出现了坏道,因为是图片服务器且有备份,暂时没有去机房处理。服务器
过了两天又出现了另外一台MySQL数据库服务器也发出了一样的警报,可怕的是经过检测报告的ide
Media Error Count :24 工具
Other Error Count:2spa
看样子服务器在今年是硬件故障高发期啊,Dell服务器若是不是由厂家进货的话,若是你是维护的人员可就要小心了。blog
我说的什么意思你懂得!图片
因而发邮件和总监和开发经理进行沟通,邮件中说了故障的详细状况,而且给出了当前的紧急解决措施(其中图片服务器作了文件的异机备份,数据库服务器因为是主从结构,这个没必要太担忧,切天天都有备份计划本地和异地)有一点服务器的磁盘是支持热插拔的,也就是说不用停机进行磁盘的更换是没有问题的,可是为了安全平稳通过沟通一致认为在晚上比较合适(其实这彻底是没信心致使的,白天处理其实影响不大,可能就是会致使IO负载高一些),避开了业务高峰和访问高峰,这样给咱们解决问题提供了充足的时间。ci
最让我放心的是服务器的阵列配置是经过4块磁盘作的RAID5+hot spare 这样的配置有一个很大的好处就是: 若是正常的RAID5中的三块磁盘有任何一块损坏了,RAID阵列暂时是安全的
若是配置了热备盘,那么热备盘会在RAID阵列中某块磁盘算坏的时候进行替补,RAID阵列重建。 当损坏的磁盘更换后。 热备盘会识别到,而后将自身的数据与新替换的磁盘进行数据同步。当数据同步完成以后就会恢复到原来的角色-热备盘。 好神奇啊:)
知道了阵列的工做原理也就不用担忧了,次日晚上按照事先计划好的方案进行
首先进行重要文件的手工备份以保持备份的最新,图片,数据库等备份到异地Ok
而后按照预先的计划,拔下故障磁盘,当即插入新的磁盘,这个时候,新插入磁盘会闪烁几秒钟,这个过程就是主板识别的过程,而后指示一直处于静止状态。
这个时候第四块硬盘也就是热备盘的数据读写灯狂闪,你应该猜到了,热备已经检测到有磁盘掉线了,而后就自动加入RAID进行重建,300G的容量大概重建完成用了30分钟的时间
为了验证个人想法,我把图片服务器进行了重启而后进入到BIOS里面的RAID卡配置工具里面进行查看,这个时候显示的是热备盘参与阵列进行重建,而替换的新磁盘状态是READY
等了大约30分钟后,RAID重建完成。 替换的新磁盘的状态立刻就变成了 replacing 。这个过程大概一样须要30分钟左右。
在系统中进行检测磁盘的状态是 cpoyback。
最后正常的状态是 热备盘的角色恢复成热备模式,阵列完成重建,正常工做。
进入系统从新检测错误消失了
注:以上说道的在系统中检测的具体工具是:
/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll