【故障公告】docker swarm 集群问题引起的故障

时间 2019-11-05

标签故障公告 docker swarm 集群问题引起故障栏目 Docker 繁體版

原文原文链接

咱们的生产环境部署了 2 个 docker swarm 集群，集群 swarm-a 用于专门跑博客站点，集群 swarm-b 用于跑其余站点，manager 节点用了阿里云包月服务器，worker 节点用了阿里云抢占式实例。node

今天 11:03 收到阿里云的短信通知“您的抢占式实例：实例ID(实例名称)因库存变化，即将进入释放状态”，一共被释放了3台，其中1台是集群 swarm-a 的节点服务器，1台是集群 swarm-b 的节点服务器。释放后，2个集群稳如泰山，应用的正常运行并无受到影响，当时集群的剩余服务器够用，也就没有当即加服务器。docker

中午 12:23 又收到阿里云抢占式实例释放的短信通知，此次是集群 swarm-b 的1台服务器，释放后集群依然稳如泰山。但这时咱们紧张起来了，怎么回事，今天一天释放的服务器顶以前的半年，为了以防继续有服务器被释放，咱们赶忙新购服务器添加到集群。服务器

此次购买的是阿里云第六代企业级 c6 服务器（包月），原本虽然少了2台服务器但集群运行正常，可是将新购服务器加入集群后居然引起了集群故障（当时不知是新购服务器引发的），容器之间的网络通讯出现了奇怪问题，没法正常通讯。12:40 左右，集群 swarm-b 全面故障，除博客站点以外的其余站点都没法正常访问。网络

继续加服务器，但问题依旧。后来发现，重启容器能够恢复正常，因而一个一个服务重启。阿里云

docker service update --force server_name

13:00 左右开始，各个应用开始逐步恢复正常。code

在恢复的过程当中才发现最早加入的那台服务器的异常表现，上面的容器运行状态都显示正常，但本机 80 端口却连不上，经过 docker node update --availability drain 命令卸载全部容器后问题依旧，后来经过阿里云控制台重启这台服务器后立马恢复了正常，很是奇怪。server

很是抱歉！此次故障给你们带来很大的麻烦，请你们谅解。咱们会吸收教训，改进生产环境的部署方案。blog