k8s环境中ceph rbd已经被挂载问题分析解决

时间 2021-01-07

标签 node git github api app ide google code token 文档栏目 Git 繁體版

原文原文链接

背景

以前为k8s准备了ceph rbd块存储，可是最近再使用过程当中发现了一个因为deployment更新致使rdb不能被正常挂载的问题。node

问题描述

咱们经过deployment生成一个pod，而且这个pod挂载一个rbd块存储用来提供持久化存储功能。有一次deployment更新，发现deployment先启动了一个被调度到其它node新的pod一直处于pending状态，而对于的老pod一直处于Terminating状态。致使了这次更新失败。git

问题排查

经过describe新pod发现以下报错：

Warning  FailedAttachVolume  15m                    attachdetach-controller  Multi-Attach error for volume "pvc-c78521e4-196e-4d7a-9858-23cf0b021d43" Volume is already used by pod(s) atd-dashboard-66958b6996-xggl4
Warning FailedMount 118s (x2 over 11m) kubelet, work4 Unable to attach or mount volumes: unmounted volumes=[data], unattached volumes=[default-token-66blg yunlian-configmap data atdrtapi-configmap dashboard-configmap]: timed out waiting for the condition

经过google和官方文档发现ceph rbd共享挂载的一些特性：
- ceph rbd块存储能在同一个node上跨pod以ReadWriteOnce共享挂载
- ceph rbd块存储能在同一个node上同一个pod多个容器中以ReadWriteOnce共享挂载
- ceph rbd块存储不能跨node以ReadWriteOnce共享挂载
- 若是一个使用ceph rdb的pod所在的node挂掉，这个pod虽然会被调度到其它node，可是因为rbd不能跨node屡次挂载和挂掉的pod不能自动解绑pv的问题，这个新pod不会正常运行
咱们知道了ceph rbd共享挂载的特性，咱们再结合deployment更新的特性：
- deployment触发更新的时候，它确保至少所需 Pods 75% 处于运行状态（最大不可用比例为 25%）。故像一个pod的状况，确定是新建立一个新的pod，新pod运行正常以后，再关闭老的pod。
- 默认状况下，它可确保启动的 Pod 个数比指望个数最多多出 25%

缘由

结合ceph rb共享挂载的特性和deployment更新的特性，咱们发现缘由以下：
因为deployment触发更新，为了保证服务的可用性，deployment要先建立一个pod并运行正常以后，再去删除老pod。而若是新建立的pod和老pod不在一个node，就会致使此故障。github

问题解决

1，使用能支持跨node和pod之间挂载的共享存储，例如cephfs，GlusterFS等
2，给node添加label，只容许deployment所管理的pod调度到一个固定的node上。（不建议，这个node挂掉的话，服务就故障了）api

参考资料

https://kubernetes.io/zh/docs/tutorials/stateful-application/basic-stateful-set/
https://github.com/rook/rook/issues/1507app