朋友和我吐槽,自从他负责的系统上云后,在云数据库上经历了好几回故障,而过后的故障复盘,竟然都是他们本身的责任和问题,这让他很被动。更尴尬的是,原想着上云后,数据库的问题都是公有云厂商负责,因此他们运维团队中也没有招聘DBA,当下没有很好的优化思路,因而找我一块儿探讨这个问题。sql
朋友的这个Case很典型,认为上云就万事大吉,上云后一旦出现问题,又会以为上云各类不靠谱。在公有云厂商中,被你们广为承认的观点是“责任共担模型“。在海外,亚马逊AWS、微软Azure均采用了与用户共担风险的安全策略。例如,AWS 做为IaaS+PaaS为主的服务提供商,负责管理云自己的安全,业务系统安全则由客户负责。客户能够在AWS安全市场里挑选合适的产品来保护本身的内容、平台、应用程序、系统和网络安全。而微软Azure也探讨了IaaS, PaaS和SaaS用户的“责任递减”模式。在这里,咱们并不打算展开讨论该问题,只是但愿引入该概念,让你们创建初步的认知:上云后,依然是须要客户和平台双方通力合做才能取得好的结果。数据库
下面是朋友讲述的故障,限于故障缘由的重复,我删减了一些Case,听朋友讲完后,我很是吃惊,内心暗想,这和上云有啥关系,这些问题,你不上云照样都会发生的,只能说你运气好,发生在上云期间,你们对于新事物多少有一些宽容,否则,后果不敢想啊。后端
和京东云平台质量部的同窗们对上述的Case进行分析后,咱们总结了如下缘由:缓存
常态下系统中存在不少慢SQL,其执行时间少则15s,多则60s以上,若是慢SQL的执行次数增长,必然致使云数据库压力上升,数据库链接被占用,处理其余请求的速率也慢了下来,直至链接数被耗光,致使服务异常,或者在链接数没耗光以前,就由于数据库CPU使用率100%而致使服务异常了。安全
高频SQL看似没有问题,但延时一旦增长或者网络抖动,高频SQL就可能变为较慢的SQL,基于其基础足够大,足以将系统拖垮。性能优化
上面的屡次故障都是由于某一个业务异常致使数据库故障后,影响到了数据库上的全部业务,这多是源于指望下降运维复杂度,因此搞了一个最大规格数据库的缘由,确实,全部业务共用一个数据库从管理角度确定更简单。网络
上述的Case,大部分都是读请求致使的故障,忽然间由于各类缘由,致使请求上涨,而数据库实例只有一个,没有水平扩展,因此很容易被打挂。并发
从故障描述中能够看到,随便一个请求,均可以把数据库的并发链接数打到2000+以上,进而致使其余业务不可用,没有对不一样业务进行合理的资源分配。运维
研发直接到线上数据库中修改数据,修改错误的缘由有表的名字错了,where条件错了,或者是对较大的表结构进行调整,操做前不在线下进行测试验证,操做前也不进行数据库备份,很容易致使重大事故。性能
多个CASE都是研发直接操做线上数据,这是权限管理混乱的表现,也是很危险的事情。试想,人人都能修改数据库,会有什么后果你们应该都很清楚。若是修改了和交易数据相关的数据,或者是删库跑路,那就麻烦了。
多个CASE也都看到这个问题,全部的接口都没有作限流,你们能够发起随意量级的访问,所以随便一个用户发起批量请求都足以将系统打垮。
结合该朋友的状况,云平台质量部的同窗通过讨论后,对数据库的改进给出以下建议,而对于一些较为通用的问题,如系统异常后直接崩溃,空参数等等,则不在此进行讨论,咱们后续会有专门的文章进行说明。
TOP-N的SQL分为两种情形:
慢SQL,也就是执行耗时的TOP-N
高频SQL,也就是执行频次的TOP-N
在京东云上,提供了性能优化的功能,能够查询到全部的慢SQL,必定要加以使用
最后提一句,必定要想办法在集群上实现自动化kill慢SQL的功能,而不要等遇到出问题后挨个找人来看能不能杀这些SQL,那就太晚了,经验值,一旦走到这个地步,故障时长起步40分钟。
核心业务必须使用独立的数据库实例,仅非核心业务能够考虑共用数据库实例。从而避免单个用户的问题影响到全部业务。但隔离不只仅是基于业务角度进行隔离,还能够根据业务状况进行其余维度的隔离,例如将一些报表类业务从核心业务中剥离出来,相似的思路,业务运维的隔离方式有不少,能够参考《任务调度系统如何经过隔离提高可用性?》
从成本角度看,京东云很好的考虑到了这点,两个小实例的价格等于一个大实例的价格,所以拆分并不会增长费用,而管理成本的增长也很是低。
京东云的云数据库提供只读实例,须要利用好该特性。简单点就是新增几个只读实例将读请求进行迁移,复杂点,能够将不一样业务类型的读请求分配到不一样的只读实例上,利用隔离的特性将故障控制在较小的范围内,从而保障大部分功能的正常使用。
限流不只仅在数据库层面经过链接数的方式进行控制,更须要前置在业务侧进行,毕竟业务侧的限流机制会更为灵活和定制化,更能知足业务的需求。如何限流,能够参考《预案三板斧的限流大法》。
对数据库的任何修改和调整,都须要进行备份,以避免发生上述朋友的问题。京东云提供了灵活的数据库备份管理功能,须要好好的使用起来。这个地方的重要性,就不赘述了。
没上云以前,可能会有专门的DBA团队来对数据库进行监控,上云后,若是没有专职的DBA,那么业务运维团队就须要承担起这个责任来。下面是从京东云的监控中截取的几个关键指标,固然,还须要有对数据库功能的监控。在这点上,云平台质量部有较为丰富的经验,你们也能够参考《监控不到位,宕机两行泪》。
对于变动和权限管理等,都须要逐步创建起相关的流程,并尽可能自动化起来。同时,针对各类高频操做,还能够提供如操做手册,checklist手册等,尽可能减小手工操做。
我我的的习惯,任何问题,提供了多个解决方案后,最后都要经过三板斧来进行优先级排序,便于你们抓住重点:
最后,感谢平台质量部的多个小伙伴一块儿群策群力完成的上述方案。
参考文献:
任务调度系统如何经过隔离提高可用
https://www.infoq.cn/article/...
预案三板斧的限流大法
https://www.infoq.cn/article/...
监控不到位,宕机两行泪
https://www.infoq.cn/article/...
责任共担模型
https://aws.amazon.com/cn/com...
点击“连接”了解云数据库 SQL Server更多详情!
欢迎点击“京东云”了解更多精彩内容。