云计算之路-阿里云上：部分服务器未及时续费形成docker swarm集群故障

时间 2019-11-30

标签计算之路阿里部分服务器未及时续形成 docker swarm 集群故障栏目阿里巴巴繁體版

原文原文链接

很是很是抱歉，因为咱们的疏忽 —— docker swarm 集群中的 2 台服务器没有及时续费，形成在夜里0点被自动关机，从而引起整个 docker swarm 集群故障，形成今天凌晨 0:30 ~ 7:50 左右跑在集群上的站点没法访问，由此给您带来很大很大的麻烦，恳请您的谅解。受此次故障影响的站点有闪存，博问，班级，园子，短信息，招聘，小组，网摘，openapi 。docker

昨天下午 14: 30 左右咱们收到了阿里云的服务器到期通知，因为打算更换这2台到期的服务器，因此没有当即进行续费，准备安排在晚上更换服务器，但晚上因为忙去其余事情忘了进行操做，从而酿成了此次大错。咱们会深入吸收教训，改进咱们的运维工做。api

此次故障也让咱们对 docker swarm 集群的稳定性有了更多的疑惑。以前遇到的故障都是因为节点的 CPU 波动，而此次虽然有 2 个节点下线，但集群中还有 3 个节点，当时负载极低，CPU 也没出现波动，但整个集群依然宕机。从这个角度至少说明 docker swarm 集群并非真正意义上的分布式集群，对节点的运行情况依赖比较大，节点问题很容易影响到整个集群。服务器

docker swarm 的不稳定也给咱们带来了另一个困扰，咱们目前正在进行博客站点的 .NET Core 迁移工做，目前的博客站点用了 4 台 4 核 8 G 的 Windows Server 2016 服务器在跑，迁移完成后要不要切换到 docker swarm 上？以前是有这样的打算，但如今有点望而却步。运维

另外，给阿里云的一个建议，是否能够将服务器过时关机的动做放在中午 12:00 进行，而不是放在夜里 0:00 ，这样即便忘了续费也能够在中午吃饭的时间及时发现并处理，否则一错过就是一晚上。分布式