一次线上服务故障应急问题总结

昨天负责的项目出了个故障,从发现故障到线上服务恢复耗时一个小时,故障应急的效率存在很大问题,这里总结一下解决故障期间存在的问题,每次故障都是技术能力进步的捷径,哈哈。git 1、故障现象: 评论列表页评论内容加载不出,一直在转小圈圈,服务端监控显示有大量NP异常。tomcat 2、故障排查: 由于故障发生在我刚上线完服务五分钟左右,第一反映是回滚代码。服务报警还在继续,怀疑是发布系统回滚有问题(由
相关文章
相关标签/搜索