RDS性能下降 - 复盘 - Honeycomb数据库
原文: https://www.honeycomb.io/blog...
译:祝坤荣
注:除非特别说明,全部时间都是UTC。缓存
5月3号周四, 从00:39:08 UTC(周三 17:39 PDT)咱们经历了一次Honeycomb服务的大约24分钟的完全停机。大部分服务恢复时间是2018-05-03 01:02:49,全部面向客户的服务恢复是在01:07:00。服务器
咱们对此次停机影响的每个客户都十分抱歉。咱们对于数据的管理十分认真,并经过对系统的多项改进措施来确保将来这类的停机事件不会形成数据丢失,并确保咱们在相似的失败中能够更快的恢复。微信
过后看,故障链只有4点连通:网络
恢复部分很快:post
咱们如何获得答案的故事是一个如何使用Honeycomb来debug生产系统的有趣的例子。性能
在以后次日早上咱们的复盘会议上,两个理论摆在桌上:spa
咱们担忧一些bug隐藏在咱们的应用里(或咱们使用的其中一个Go库)致使咱们的应用在不能链接数据库时关机,这样在一样状况再发生时又会致使同样的停机故障。
每一个人都赞成这很像是下层数据库的问题(存储,CPU或链接)是根因,但咱们也赞成若是咱们以抱怨网络的方式忽略一个潜在应用级的bug会更有危险。.net
做为开发者的责任:这可能不是数据库,而多是你的代码问题。scala
为了下降风险,咱们决定在受控环境来重现Error 1040场景并观察系统表现。在咱们的实验集群上重现链接池溢出清楚的代表了链接满确实会影响应用并致使定时任务失败,它不会致使失控的CPU或延迟升高。
咱们如今有两个数据集:生产的停机和实验用的。因为咱们使用Honeycomb来观察Honeycomb,因此在这个例子对比A和B很容易
实验生产停机
左边,实验集群从12:30到13:23(除了一些失败的定时任务很难看出证据)运行,而在右边,生产的停机很清楚地显示着。实验有个空结果:咱们没有发现 Error 1040致使了停机。看起来像是系统的一些底层问题致使的。
有了这个信息,咱们须要在生产数据上挖掘的更深刻了。因为Honeycomb数据集是高保真的(咱们不作任何聚合或预先的计算),能够将数据调整到每秒级别并调整数据来抽取模式。这里是从rdslogs里记录的性能数据。
有15秒没有活动,而后有一批query_time值达到了15秒的完成动做,看起来很明显。在结束时的性能异常也有一个有意思的热力图模式:
归纳下,数据展现了高于23分钟的低吞吐,高延迟行为,并持续了少于30秒切换区域,以前是正常的高吞吐,低延迟,尖峰应用驱动的行为,接着是大量的追赶事件,最后切换到正常的高吞吐模式。
因为这不是一个全面的根因分析,但对于咱们明确问题在数据库系统而不是咱们的应用代码已经够了;咱们的应用看起来运行正常。咱们以后再SQL的normalized_query字符串上验证了咱们的代码在恢复过程当中工做符合预期。
获得这些信息后咱们从新调查了咱们的RDS配置并确认
00:39 – outage starts
00:40 – first alert
00:42 – engineers start investigation
00:50 – escalation, multiple investigators looking at several potential avenues
00:55 – status.honeycomb.io updated to keep our customers informed
00:58 – first engineering interventions to attempt to heal system, minimal impact
01:03 – outage resolution starts
01:04:23 – resolution completes, system stabilized
01:15 – engineers conclude that outage is resolved, update status.honeycomb.io
本文来自微信公众号「麦芽面包,id「darkjune_think」转载请注明。交流Email: zhukunrong@yeah.net