一次容器化springboot程序OOM问题探险

背景

运维人员反馈一个容器化的java程序每跑一段时间就会出现OOM问题,重启后,间隔大概两天后复现。java

问题调查

一查日志

因为是容器化部署的程序,登上主机后使用docker logs ContainerId查看输出日志,并无发现任何异常输出。 使用docker stats查看容器使用的资源状况,分配了2G大小,也没有发现异常。docker

二缺失的工具

打算进入容器内部一探究竟,先使用docker ps 找到java程序的ContainerId
,再执行docker exec -it ContainerId /bin/bash进入容器。进入后,本想着使用jmap、jstack 等JVM分析命令来诊断,结果发现命令都不存在,显示以下:segmentfault

bash: jstack: command not found
bash: jmap: command not found
bash: jps: command not found
bash: jstat: command not found

忽然意识到,可能打镜像的时候使用的是精简版的JDK,并无这些jVM分析工具,可是这仍然不能阻止咱们分析问题的脚步,此时docker cp命令就派上用场了,它的做用是:在容器和宿主机之间拷贝文件。这里使用的思路是:拷贝一个新的jdk到容器内部,目的是为了执行JVM分析命令,参照用法以下:api

Usage:  docker cp [OPTIONS] CONTAINER:SRC_PATH DEST_PATH|-
        docker cp [OPTIONS] SRC_PATH|- CONTAINER:DEST_PATH [flags]

有了JVM工具,咱们就能够开始分析咯。bash

三查GC状况

经过jstat查看gc状况服务器

bin/jstat -gcutil 1 1s

file

看样子没有什么问题,full gc也少。再看一下对象的占用状况,因为是容器内部,进程号为1,执行以下命令:数据结构

bin/jmap -histo 1 |more

发现ByteBuffer对象占用最高,这是异常点一。
file运维

四查线程快照状况
  • 经过jstack查看线程快照状况。
bin/jstack -l 1 > thread.txt

下载快照,这里推荐一个在线的线程快照分析网站。eclipse

https://gceasy.io

file

上传后,发现建立的线程近2000个,且大可能是TIMED_WAITING状态。感受逐渐接近真相了。 点击详情发现有大量的kafka-producer-network-thread | producer-X 线程。若是是低版本则是大量的ProducerSendThread线程。(后续验证得知),能够看出这个是kafka生产者建立的线程,以下是生产者发送模型:工具

file

根据生产者的发送模型,咱们知道,这个sender线程主要作两个事,一是获取kafka集群的Metadata共享给多个生产者,二是把生产者送到本地消息队列中的数据,发送至远端集群。而本地消息队列底层的数据结构就是java NIO的ByteBuffer。

这里发现了异常点二:建立过多kafka生产者。

因为没有业务代码,决定写一个Demo程序来验证这个想法,定时2秒建立一个生产者对象,发送当前时间到kafka中,为了更好的观察,启动时指定jmx端口,使用jconsole来观察线程和内存状况,代码以下:

nohup java -jar -Djava.rmi.server.hostname=ip 
 -Dcom.sun.management.jmxremote.port=18099
 -Dcom.sun.management.jmxremote.rmi.port=18099
 -Dcom.sun.management.jmxremote.ssl=false
 -Dcom.sun.management.jmxremote.authenticate=false -jar
 com.hyq.kafkaMultipleProducer-1.0.0.jar   2>&1 &

链接jconsole后观察,发现线程数一直增加,使用内存也在逐渐增长,具体状况以下图:

file

故障缘由回顾

分析到这里,基本肯定了,应该是业务代码中循环建立Producer对象致使的。
在kafka生产者发送模型中封装了 Java NIO中的 ByteBuffer 用来保存消息数据,ByteBuffer的建立是很是消耗资源的,尽管设计了BufferPool来复用,但也经不住每一条消息就建立一个buffer对象,这也就是为何jmap显示ByteBuffer占用内存最多的缘由。

总结

在平常的故障定位中,多多使用JDK自带的工具,来帮助咱们辅助定位问题。一些其余的知识点:
jmap -histo显示的对象含义:

[C 表明  char[]
[S 表明 short[]
[I 表明 int[]
[B 表明 byte[]
[[I 表明 int[][]

若是导出的dump文件过大,能够将MAT上传至服务器,分析完毕后,下载分析报告查看,命令为:

./mat/ParseHeapDump.sh active.dump  org.eclipse.mat.api:suspects
org.eclipse.mat.api:overview org.eclipse.mat.api:top_components

可能尽快触发Full GC的几种方式

1) System.gc();或者Runtime.getRuntime().gc();

2 ) jmap -histo:live或者jmap -dump:live。
这个命令执行,JVM会先触发gc,而后再统计信息。
3) 老生代内存不足的时候
欢迎关注vx公众号 【侠梦的开发笔记】
相关文章
相关标签/搜索