【故障公告】docker swarm 集群问题引起的故障

咱们的生产环境部署了 2 个 docker swarm 集群,集群 swarm-a 用于专门跑博客站点,集群 swarm-b 用于跑其余站点,manager 节点用了阿里云包月服务器,worker 节点用了阿里云抢占式实例。node

今天 11:03 收到阿里云的短信通知“您的抢占式实例:实例ID(实例名称)因库存变化,即将进入释放状态”,一共被释放了3台,其中1台是集群 swarm-a 的节点服务器,1台是集群 swarm-b 的节点服务器。释放后,2个集群稳如泰山,应用的正常运行并无受到影响,当时集群的剩余服务器够用,也就没有当即加服务器。docker

中午 12:23 又收到阿里云抢占式实例释放的短信通知,此次是集群 swarm-b 的1台服务器,释放后集群依然稳如泰山。但这时咱们紧张起来了,怎么回事,今天一天释放的服务器顶以前的半年,为了以防继续有服务器被释放,咱们赶忙新购服务器添加到集群。服务器

此次购买的是阿里云第六代企业级 c6 服务器(包月),原本虽然少了2台服务器但集群运行正常,可是将新购服务器加入集群后居然引起了集群故障(当时不知是新购服务器引发的),容器之间的网络通讯出现了奇怪问题,没法正常通讯。12:40 左右,集群 swarm-b 全面故障,除博客站点以外的其余站点都没法正常访问。网络

继续加服务器,但问题依旧。后来发现,重启容器能够恢复正常,因而一个一个服务重启。阿里云

docker service update --force server_name

13:00 左右开始,各个应用开始逐步恢复正常。code

在恢复的过程当中才发现最早加入的那台服务器的异常表现,上面的容器运行状态都显示正常,但本机 80 端口却连不上,经过 docker node update --availability drain 命令卸载全部容器后问题依旧,后来经过阿里云控制台重启这台服务器后立马恢复了正常,很是奇怪。server

很是抱歉!此次故障给你们带来很大的麻烦,请你们谅解。咱们会吸收教训,改进生产环境的部署方案。blog

相关文章
相关标签/搜索