一次线上GC问题排查

发现问题 早上还没到公司就收到短信告警,提示订单接收接口频繁报错. 立即介入看告警信息,一般都会拿到报错的基本信息,例如堆栈或则关键日志等等查看错误日志量。 这里初步从八点开始发现错误在变多,然后查看峰值最高的时间段的异常日志。发现一个很关键的信息lock wait. 这初步说明是DB的锁超时导致的接单报错。 这个时候查看整个集群的信息,很多机器已经出现飙红的情况。 CPU的负载非常高,我们尝试重
相关文章
相关标签/搜索