昨天 22:00~22:30 左右与 23:30~00:30 左右,有1台服役多年的阿里云负载均衡忽然失灵,形成经过这台负载均衡访问博客站点的用户遭遇 502, 503, 504 ,由此给您带来麻烦,请您谅解。docker
问题很是奇怪,从表现看,彷佛负载均衡与后端服务器之间的内网通讯出现了问题。有时健康检查成功,但转发请求到后端服务器会失败;后端服务器明明正常,有时健康检查却失败;最糟糕的时候,全部后端服务器都健康检查失败。而其余使用一样后端服务器的负载均衡都没出现这个问题,最终经过下线这台负载均衡解决了问题。后端
这台负载均衡是咱们 2013 年刚上阿里云时购买的,服役多年,以前从未出现这个问题,如今看来只能被迫让它退役了。服务器
昨天上午发现,咱们用于部署除博客站点以外全部其余应用的 docker swarm 集群中全部服务器 CPU 100% 。负载均衡
这个 CPU 100% 与一般的 CPU 100% 有很大的不同,虽然是 100% ,但不影响应用的正常运行。今年3月份也遇到到一样的问题,当时经过 top 命令查看是 sy (system cpu time spent in kernel space) 占用了不少 CPU ,后来经过重启集群中的全部 worker 节点服务器并从新部署应用解决的。网站
今天早上咱们也采起了重启节点服务器的方法,重启后服务器 CPU 恢复了正常。但在操做过程当中,闪存应用容器出现了问题,形成 15 分钟左右闪存站点访问不正常,由此给您带来麻烦,请您谅解。阿里云
最近,博客站点遭遇屡次 DDoS 攻击,最高一次攻击流量达到了近 80G 。一攻击就会被阿里云屏蔽30分钟,虽然咱们采起了应急措施,但所有生效要10分钟左右,因此每次受攻击影响的用户可能要10分钟左右才能恢复正常访问,由此给您带来您谅解,请您谅解。spa
在这个多事之秋,网站出现了不少次故障,给你们带来了很大的麻烦,恳请你们的谅解。blog
这个多事之秋,对咱们也是一种考验,咱们会吸收教训,进一步提高本身,在接下来更加努力地和你们共建更加朝气蓬勃的园子。部署