云计算之路-阿里云上:3个manager节点异常形成 docker swarm 集群宕机

今天 11:29 - 11:39 左右,docker swarm 集群 3 个 manager 节点同时出现异常,形成整个集群宕机,由此给您带来很大的麻烦,请您谅解。docker

受这次故障影响的站点有:博问闪存班级园子短信息招聘小组网摘新闻,openapiapi

最近咱们刚刚确认咱们全部遇到的 docker swarm 不稳定问题都与部分节点的异常情况有关,即便是一直让咱们很是头疼的 docker-flow-proxy 路由问题,也是由于路由容器所在的节点出现异常情况,只要经过阿里云控制台重启这台节点服务器,就能恢复正常。服务器

咱们的 docker swarm 集群节点部署是这样的:5台阿里云2核4G服务器做为 manager 节点,1台阿里云4核8G服务器做为 worker 节点。基于这样的部署,咱们想即便部分节点出现异常情况也不会带来影响,发现后重启节点服务器就好了。但没想到今天3个节点同时出现异常情况。。。最终经过阿里云控制台重启这些异常节点后恢复正常。阿里云

对于节点的这种异常情况,咱们目前毫无头绪,不知是咱们的应用问题、仍是docker的问题、仍是阿里云服务器的问题,目前惟一的线索是:节点服务器持续运行时间越长,出现异常情况的几率越高,出现异常情况后经过阿里云控制台重启服务器立马恢复正常。blog

对于目前没法肯定是船的问题、仍是集装箱的问题、仍是货物的问题的困难处境,咱们的临时解决方法是改进对节点服务器的监控,及时发现出现异常情况的节点进行重启操做。路由

更新:根据咱们的进一步分析,更保险的临时解决方法是当发现一个节点出现异常情况时要重启全部 manager 节点服务器。部署

相关文章
相关标签/搜索