github 故障公告连接:https://github.com/cnblogs/coder-service/issues/106html
后续故障公告:升级阿里云 RDS SQL Server 实例故障通过git
很是很是抱歉,今晚 19:34 ~ 21:16 园子所使用的阿里云 RDS 数据库服务器忽然出现 CPU 100% 问题,形成全站没法正常访问,由此您带来了很大的麻烦,请您谅解。github
故障通过是这样的。19:34 这个时间点原本是一个访问低峰,数据库压力比访问高峰时低不少,但数据库服务器却异想天开、吃饱了撑着地让本身的 CPU 满负荷工做(到如今咱们都没想通,难道是服务器晚饭吃多了想帮助消化?)。开始咱们觉得是某个应用引发的,一个一个应用排查与重启, 但 CPU 不为所动,依然百分百。接着,咱们一边向阿里云提交工单求助,一边经过阿里云 RDS 控制台进行主备切换,虽然控制台显示切换成功后,但“实例可用性”中主备库信息无任何变化,实际主备库切换并无成功,绝招也失灵。请阿里云帮忙手动进行主备切换,但阿里云操做后反馈因为数据库访问压力大,手动也切换不过去,建议咱们重启实例。最终,咱们决定重启实例,重启实例后一切恢复正常。是的,就是用最笨的方法——重启——解决了问题,在故障期间咱们采起的全部措施都是徒劳,让人啼笑皆非。数据库
望着今晚被暴风骤雨突袭后一片狼藉的园子,心中说不出的难受和愧疚。真的很抱歉,咱们一直在努力建设园子,但今天的故障又告诉咱们,没那么容易,咱们的努力还不够,咱们别无选择,惟有更加努力。服务器
【更新】阿里云
00:22 开始将阿里云 RDS 实例从 SQL Server 2008 R2 升级至 20163d
6:20 数据库升级完成code
升级后大量数据库查询超时,正在紧急处理中。htm
9:20 升级后大量 SQL 须要编译,RDS 实例的 CPU 一直居高不下,因为阿里云 RDS 控制台中数据库实例一直处于“主备库切换中”状态中,即便想升级 CPU ,如今也没法进行。blog
9:50 从早上 8:50 开始阿里云 DBA 就开始重建备库,“主备库切换中”状态要等备库重建完成才能解除,升级服务器配置也要等备库重建完成。
10:29 备库重建完成,“主备库切换中”状态解除。
10:50 准备升级 RDS 配置,但阿里云升级配置页面的计价出现问题,即便配置保持不变,也要1万多元的费用。
11:05 进行了主备切换。
11:10 主备切换完成后,目前恢复了正常。