Proxmox VE 超融合集群不停服务更换硬盘操做实录

时间 2020-05-13

原文原文链接

状况描述

四节点组成的proxmox VE超融合集群，连续运行时间超过500天。每一个节点除了系统盘而外，由四个单独的2.4T 10000转sas盘作ceph osd。

服务器

监控发现，其中一个节点的一块硬盘处于down的状态，尝试修复未得到成功，登陆系统，发现系统日志有大量的IO错误，由此判断，必定是硬盘物理损坏。再通知机房，请值班技术帮忙，现场查看硬盘指示灯状态，有一块硬盘常亮红灯，确认故障与判断一致。ide

因为是在线系统，服务不容许中止，这是最基本的要求。很是幸运的是，proxmox VE去中心化超融合集群，在保证集群得以维持的状况下，能够关掉任意一台或者多台物理服务器（别的超融合平台有控制节点，这个控制节点不能关）。日志

没有停机担心之后，作出以下安排：code

一切准备稳当以后，风高月黑之夜派人潜入机房，待命。按照计划，进行以下的步骤：blog

Web管理界面，把故障机运行着的虚拟机的ID号记录下来，而后将其加入到proxmox VE的HA（此高可用与pve集群不一样，是创建在pve集群之上的）。

ip
关机，查看故障机运行的虚拟机是否所有自动漂移（对照记录下来的虚拟机id号）。
通知机房待命的兄弟，拔出坏硬盘，身手敏捷地插上新硬盘。启动系统，看系统是否识别硬盘，不幸的是，没有被识别（其实也是意料之中），须要进入raid卡的控制控制界面，把这个新盘作成raid 0（单盘raid0 ，强烈建议不要搞raid 5），再启动，能识别到这个硬盘，具体的指令就是df -h。
执行下列命令初始化新更换的磁盘：同步
```
wipefs -af /dev/sdc
```
wipefs -af /dev/sdc #sdc为新更换的磁盘设备名称虚拟机
Web管理界面建立osd。若是下拉列表提示“没有未使用的磁盘”，能够重复第“4”步。
刷新页面，查看新的osd是否已经被正确加入。同时也能够在命令执行以下指令进行同步验证：
```
ceph osd tree
```
ceph osd tree
it
回迁部分虚拟机到恢复好物理节点。点鼠标就行，再也不赘述。