1.故障描述ide
1台24盘的FP5280G2机器安装了6块3.84T的nvme固态盘,这6块盘的电源灯都是绿色正常,状态灯也都没有红色告警,可是经过lspci命令查看实际只识别到了5块盘。spa
2.排查过程ci
因为raid卡不支持nvme协议的固态盘,因此没法经过点灯来缺失究竟是那个槽位的硬盘没法识别。这样就只能经过命令dd if=/dev/zero of=/dev/nvme1pn1向每一个磁盘中写入数据,而后观察闪烁的磁盘状态灯,逐一排查,最终来肯定是22槽位的盘没有被识别。it
定位到了没有被识别到的nvme固态盘,此时也不能肯定该盘是好的仍是坏的,须要经过将该块盘与其余槽位正常识别到的盘互换位置,而后再次经过dd命令逐一贯每块磁盘写入数据,观察磁盘的状态灯,来肯定。最后观察发现,没有被识别的22槽位磁盘放到0槽位是能够被识别到的,而那块正常的盘放到22槽位也不能被识别到。此时能够证实,以前22槽位的盘是好的。class
既然22槽位的盘是好的,那么问题可能就是背板、riser卡、oculink线损坏致使的22槽位硬盘不能被识别,因此我先对调了一下oculink线,发现仍是没法识别硬盘。那么就排除了oculink损坏的可能。范围进一步缩小到了背板和riser卡上,这时我又把背板给替换掉了,最终22槽位的硬盘被识别到了。此时能够肯定是背板损坏了致使22槽位nvme固态盘没法被识别。方法
3.解决方法数据
更换背板。协议