生产Docker应用重启排查经历

一、现象描述 生产云平台监控发生Docker应用重启次数过多事故报警,经观察发现某些Docker应用不定期地出现重启现象,已严重影响服务正常提供,生产应用重启的判断条件:健康检查连续3次检查不通过,生产健康检查间隔时间设置为:5s,也就是说如果应用对健康检查请求在15s内未返回结果,则云平台自动重启应用。 二、重启现象分析 2.1、线程池泄漏问题 (1)方法一:pstree命令分析 第一步:使用s
相关文章
相关标签/搜索