记录线上RT规律性增加问题排查

时间 2019-12-04

标签记录线上规律性增加问题排查繁體版

原文原文链接

背景

营销中心一个新工程上线，工程上线后，监控平台显示RT水位呈规律性上涨降低

初次看监控图，认为是redis key批量同时失效致使的，由于波峰的相隔时间正好是15分钟，redis的key失效时间也正好设置了这个时间。同时，当时公司运维反馈给个人，该表的sql请求量较大，15分钟调用了 36530次，占了该库性能的80%.mysql

从链路监控中发现部分mysql的RT很高。redis

结合db响应时间，初步定位问题为：缓存穿透后，大量的sql请求量致使RT上升。sql

可是其实没法解释规律性上涨问题。缓存

因而乎，增长缓存击穿保护，发布上线，发现RT居然下来了！认为问题已经解决。服务器

过了个端午，今天再看RT状况，又恢复第一张图的状况多线程

感受问题并不是当初想象的那样。因而检查服务器状况，发现服务器CPU使用也很是奇葩。运维

因而使用jstack 排查工程中多线程使用状况，发现无异常。jvm

使用 top -Hp pid 查看CPU使用最频繁的线程性能

printf "%x\n" 19838 获取到十六进制值 4d7e
spa

jstack 19832 | grep "4d7e" 查看线程状况

发现消耗CPU最多的居然是gc线程

jstat -gc 19832 1000 查看GC状况

发现大bug了。老年代只配置了64M，线上一直在fullgc，端午三天已经fullgc了19万次多了。。好了，能够找运维小哥哥喝茶去了

线上老年代配置的过小，致使系统一直在fullgc，fullgc的时候STW，阻塞用户线程，通常阻塞时间在100ms左右，致使RT飙升。fullgc后恢复正常，rt恢复，而后再次继续fullgc。

1. 监控平台缺乏对jvm监控

2. 对于请求量大的接口，评估缓存击穿风险

3. 问题排查要结合CPU，内存，IO，JVM多方面同时考虑