Proxmox VE 超融合集群不停服务更换硬盘操做实录

状况描述

四节点组成的proxmox VE超融合集群,连续运行时间超过500天。每一个节点除了系统盘而外,由四个单独的2.4T 10000转sas盘作ceph osd。
Proxmox VE 超融合集群不停服务更换硬盘操做实录
Proxmox VE 超融合集群不停服务更换硬盘操做实录服务器

监控发现,其中一个节点的一块硬盘处于down的状态,尝试修复未得到成功,登陆系统,发现系统日志有大量的IO错误,由此判断,必定是硬盘物理损坏。再通知机房,请值班技术帮忙,现场查看硬盘指示灯状态,有一块硬盘常亮红灯,确认故障与判断一致。ide

故障修复计划

因为是在线系统,服务不容许中止,这是最基本的要求。很是幸运的是,proxmox VE去中心化超融合集群,在保证集群得以维持的状况下,能够关掉任意一台或者多台物理服务器(别的超融合平台有控制节点,这个控制节点不能关)。日志

没有停机担心之后,作出以下安排:code

  •  把有故障的物理机上正在运行的虚拟机,加入到ha中;
  •  停机换硬盘;
  •  系统识别硬盘;
  •  建立osd;
  •  回迁部分虚拟机到恢复好的物理节点。

故障修复实施

一切准备稳当以后,风高月黑之夜派人潜入机房,待命。按照计划,进行以下的步骤:blog

  1. Web管理界面,把故障机运行着的虚拟机的ID号记录下来,而后将其加入到proxmox VE的HA(此高可用与pve集群不一样,是创建在pve集群之上的)。
    Proxmox VE 超融合集群不停服务更换硬盘操做实录
    Proxmox VE 超融合集群不停服务更换硬盘操做实录ip

  2. 关机,查看故障机运行的虚拟机是否所有自动漂移(对照记录下来的虚拟机id号)。
    Proxmox VE 超融合集群不停服务更换硬盘操做实录
  3. 通知机房待命的兄弟,拔出坏硬盘,身手敏捷地插上新硬盘。启动系统,看系统是否识别硬盘,不幸的是,没有被识别(其实也是意料之中),须要进入raid卡的控制控制界面,把这个新盘作成raid 0(单盘raid0 ,强烈建议不要搞raid 5),再启动,能识别到这个硬盘,具体的指令就是df -h。
  4. 执行下列命令初始化新更换的磁盘:同步

    wipefs -af /dev/sdc

    wipefs -af /dev/sdc #sdc为新更换的磁盘设备名称虚拟机

  5. Web管理界面建立osd。若是下拉列表提示“没有未使用的磁盘”,能够重复第“4”步。
    Proxmox VE 超融合集群不停服务更换硬盘操做实录
  6. 刷新页面,查看新的osd是否已经被正确加入。同时也能够在命令执行以下指令进行同步验证:
    ceph osd tree

    ceph osd tree
    Proxmox VE 超融合集群不停服务更换硬盘操做实录it

  7. 回迁部分虚拟机到恢复好物理节点。点鼠标就行,再也不赘述。
相关文章
相关标签/搜索