记一次线上应用故障分析

这几天某个应用经常报上下线告警。我们是通过监测应用节点是否从zk临时节点掉下来进行告警的。排除网络原因的话,以往一般是服务器或应用cpu太高,zk客户端与zk服务端连接超时,而且重试后也无法连上导致。日志体现如下: 查看堆内存使用曲线发现,内存持续上升到最大内存,然后gc。gc时经常会出现应用上下线的报警。 把堆内存dump下来,使用mat分析,发现一个服务的现场队列,占了大部分内存。 这里差不多
相关文章
相关标签/搜索