记一次上线就跪的故障排查案例

这个是我很早以前解决的一个案例,其现象是系统每次上线后,20多台机器,总有两三机器,出现假死的情况。如何判断出系统假死?借助的是一个第三方公司运维监控平台;这种情况,前同事称之为的“假死”,需要重新启动系统才能恢复。因为我是新来乍到,觉得这种情况不正常,而且对研发(在这边是研发上线)来说,是一个非常大的上线负担;于是我决定解决一下这个“百年难题”。 我亲自上线,果然很快就碰到了假死的机器。我看到机
相关文章
相关标签/搜索