Java的应用有时候会由于各类缘由Crash,这时候会产生一个相似java_errorpid.log的错误日志。能够拿到了html
这个日志,怎样分析Crash的缘由呢?下面咱们来详细讨论如何分析java_errorpid.log的错误日志。java
一. 如何获得这个日志文件linux
若是有一个严重的错误引发Java进程非正常退出,咱们叫Crash,这时候会产生一个日志文件。缺省状况下,这个算法
文件会产生在工做目录下。可是,能够在Java启动参数经过下面的设置,来改变这个文件的位置和命名规则。例如:缓存
java -XX:ErrorFile=/var/log/java/java_error_%p.logapp
就将这个错误文件放在/var/log/java下,而且以java_error_pid.log的形式出现。eclipse
二.产生错误的缘由jvm
形成严重错误的缘由有多种可能性。Java虚拟机自身的Bug是缘由之一,可是这种可能不是很大。在绝大多数状况下,是因为系统的库文件、API或第三方的库文件形成的;系统资源的短缺也有可能形成这种严重的错误。在发生了Crash以后,若是没法定位根本缘由,也应该迅速找到Work Around的方法。post
三.对日志文件的分析ui
首先要检查日志的文件头:例如,下面是从一个客户发过来的错误日志的文件头
文件头中有不少有用的信息,“EXCEPTION_ACCESS_VIOLATION ”意味着Java应用Crash的时候,正在运行JVM本身的代码,而不是外部的Java代码或其余类库代码。这种状况极可能是JVM的Bug,可是也不必定。除了“EXCEPTION_ACCESS_VIOLATION ”,还有多是别的信息,例如“SIGSEGV(0xb)”,意味着JVM正在执行本地或JNI的代码;“EXCEPTION_STACK_OVERFLOW”意味着这是个栈溢出的错误。(**********看到这里咱们知道我报错时正在运行JVM本身的代码,而不是外部的Java代码或其余类库代码*********)
另一个有用的JVM崩溃信息就是:
它说明Crash的时候,JVM正在从哪一个库文件执行代码。除了“V”之外,还有多是“C”、“j”、“v”、“J”。具体的表示意思以下:
文件头以后,是当前线程的DUMP信息,线程以后是JVM进程的DUMP信息,包括全部线程的状态、地址和ID。最后还有JVM状态,
Heap状态,动态链接库等等的信息。这些烦乱的信息中,包含有很是有用的信息。下面咱们根据几个具体的实例来分析JVM崩溃的典型例子。
四.内存回收引发的Crash
内存回收引发的Crash有如下的特色:在日志文件头通常有“ EXCEPTION_ACCESS _VIOLATION”和
“# Problematic frame: # V [jvm.dll+....”的信息,意味着这是在JVM内部处理,并且多半是JVM的Bug。
(**********看到这里咱们知道我报错时意味着这是在JVM内部处理,并且多半是JVM的Bug*********)
对于这类问题,最快的方法就是绕过它。
另外,在Thread的DUMP信息最后,还能看到有关内存回收的行为例如:
能够清楚的看到JVM正在作 “full generation collection”。另外还有可能看到,其余的回收行为:
对于内存回收的错误,通常
采起改变回收的算法和参数的方法来绕过去。例如,来自客户的日志除了上面的日志信息,在日志中Heap信息中还能发现一些其余信息:
上面的信息能看出在Crash的时候,JVM的PermSize空间几乎已经消耗完了,而且回收算法在压缩Perm空间的时候出了错。所以,建议改变内存回收的算法,或扩大PermSize和MaxPermSize的数值。
(*******这个却是能够尝试*******)
五.栈溢出引发的Crash
Java代码引发的栈溢出,一般不会引发JVM的Crash,而是抛出一个Java异常:java.lang.StackOverflowError。可是在Java虚拟机中,Java的代码和本地C或C++代码公用相同的Stack。这样,在执行本地代码所形成的栈溢出,就有可能引发JVM的Crash了。栈溢出引发的Crash会在日志的文件头中看到“EXCEPTION_STACK_OVERFLOW”字样。另外,在当前线程的Stack信息中也能发现一些信息。例以下面的例子:
在上面的信息中,能够发现这是个栈溢出的错误。而且当前栈剩余的空间已经很小了(free space =4k)。
所以建议将JVM的Stack的尺寸调大,主要设计两个参数:“-Xss” 和“-XX:StackShadowPages=n”。可是,将栈的尺寸调大,也意味着在有限的内存资源中,能打开的最大线程数会减小。
致命错误出现的时候,JVM生成了hs_err_pid<pid>.log这样的文件,其中每每包含了虚拟机崩溃缘由的重要信息。由于常常遇到,在这篇文章里,我挑选了一个,而且逐段分析它包含的内容(文件能够在文章最后下载)。默认状况下文件是建立在工做目录下的(若是没权限建立的话JVM会尝试把文件写到/tmp这样的临时目录下面去),固然,文件格式和路径也能够经过参数指定,好比:
java -XX:ErrorFile=/var/log/java/java_error%p.log
这个文件将包括:
首先,看到的是对问题的概要介绍:
# SIGSEGV (0xb) at pc=0x03568cf4, pid=16819, tid=3073346448
一个非预期的错误被JRE检测到,其中:
若是你对JVM有了解,应该不会对这些东西陌生。
接下来是JRE和JVM的版本信息:
# JRE version: 6.0_32-b05 # Java VM: Java HotSpot(TM) Server VM (20.7-b02 mixed mode linux-x86 )
运行在mixed模式下。
而后是问题帧的信息:
# Problematic frame: # C [libgtk-x11-2.0.so.0+0x19fcf4] __float128+0x19fcf4
C:帧类型为本地帧,帧的类型包括:
接下去第一部分是线程信息:
Current thread (0x09f30c00): JavaThread”main”[_thread_in_native, id=16822, stack(0xb72a8000,0xb72f9000)]
当前线程的:
siginfo:si_signo=SIGSEGV: si_errno=0, si_code=1(SEGV_MAPERR), si_addr=0×00000010
这部分是致使虚拟机终止的非预期的信号信息,含义前面已经大体提到过了。其中si_errno和si_code是Linux下用来鉴别异常的,Windows下是一个ExceptionCode。
EAX=0×00000000,EBX=0x0375dd84,ECX=0×00000000,EDX=0×00000000 ESP=0xb72f0fa0,EBP=0xb72f0fb8,ESI=0×00000000,EDI=0x0a6c1800 EIP=0x03568cf4,EFLAGS=0×00010246,CR2=0×00000010
这是寄存器上下文。
Top of Stack: (sp=0xb72f0fa0) 0xb72f0fa0: 00000000004022500040217f 0375dd84 0xb72f0fb0: 000000000a6c1800 b72f0fe8 0356c2c0 0xb72f0fc0: 000000000a6c1800 b72f0fe8 003b3e77 0xb72f0fd0: 003e6c8b 0a1a70d0 0a193358 0375dd84 0xb72f0fe0: 0a276418 0a276418 b72f1048 03536c56 0xb72f0ff0: 0acad000 0b3ca978 0000000c 00dd0674 0xb72f1000: 000000030a2c7d50 b72f1038 0000330c 0xb72f1010: ffffffff ffffffff0000000100000001 Instructions: (pc=0x03568cf4) 0x03568cd4: 8914248975f889d6897d fc89c7 e8 7e 1b 0x03568ce4: ea ff8934248987d4020000e83000ea ff 0x03568cf4: 8b4010893c24c7442408000000008987 0x03568d04: d00200008b838824000089442404e8 dd
栈顶程序计数器旁的操做码,它们能够被反汇编成系统崩溃前执行的指令。
Register to memory mapping: EAX=0x00000000isan unknown value EBX=0x0375dd84: <offset 0x394d84>in/usr/lib/libgtk-x11-2.0.so.0 at 0x033c9000 ECX=0x00000000isan unknown value EDX=0x00000000isan unknown value ESP=0xb72f0fa0ispointing into the stackforthread: 0x09f30c00 EBP=0xb72f0fb8ispointing into the stackforthread: 0x09f30c00 ESI=0x00000000isan unknown value EDI=0x0a6c1800isan unknown value
寄存器和内存映射信息。
Stack: [0xb72a8000,0xb72f9000], sp=0xb72f0fa0, free space=291k Native frames: (J=compiled Java code, j=interpreted, Vv=VMcode,C=native code) C [libgtk-x11-2.0.so.0+0x19fcf4] __float128+0x19fcf4 C [libgtk-x11-2.0.so.0+0x1a32c0] __float128+0xc0 … … C [libswt-pi-gtk-3738.so+0x33f6a] Java_org_eclipse_swt_internal_gtk_OS__1Call+0xf J org.eclipse.swt.internal.gtk.OS._Call(III)I J org.eclipse.swt.internal.gtk.OS.Call(III)I Java frames: (J=compiled Java code, j=interpreted, Vv=VMcode) J org.eclipse.swt.internal.gtk.OS._Call(III)I J org.eclipse.swt.internal.gtk.OS.Call(III)I j org.eclipse.swt.widgets.Widget.fixedSizeAllocateProc(II)I+5 j org.eclipse.swt.widgets.Display.fixedSizeAllocateProc(II)I+17 v ~StubRoutines::call_stub … …
线程栈。包含了地址、栈顶、栈计数器和线程还没有使用的栈信息,因为栈可能很是长,打印的长度有限制,可是至少本地栈和Java栈都打印出来了(不少时候本地栈打印不出来,可是Java栈通常都能打印出来)。从中能够看到,Eclipse的虚拟机崩溃了。
Java Threads: ( => current thread ) 0x0b4c1000 JavaThread”Worker-247″[_thread_blocked, id=25417, stack(0x741bc000,0x7420d000)] 0x0a300c00 JavaThread”Worker-246″[_thread_blocked, id=25235, stack(0x7d30c000,0x7d35d000)] … …
线程信息。一目了然,不解释了。
VMstate:notat safepoint (normal execution)
虚拟机状态。包括:
VMMutex/Monitor currently owned by a thread: None
虚拟机的Mutex和Monitor目前没有被线程持有。Mutex是虚拟机内部的锁,而Monitor则关联到了Java对象。
Heap PSYoungGen total149056K, used125317K[0xa9700000, 0xb41a0000, 0xb41a0000) eden space123520K,95% used [0xa9700000,0xb0ac0de0,0xb0fa0000) from space25536K,26% used [0xb28b0000,0xb2f50748,0xb41a0000) to space25600K,0% used [0xb0fa0000,0xb0fa0000,0xb28a0000) PSOldGen total261248K, used239964K[0x941a0000, 0xa40c0000, 0xa9700000) object space261248K,91% used [0x941a0000,0xa2bf7018,0xa40c0000) PSPermGen total163328K, used130819K[0x841a0000, 0x8e120000, 0x941a0000) object space163328K,80% used [0x841a0000,0x8c160c40,0x8e120000)
堆信息。新生代、老生代、永久代。对JVM有了解的人应该都清楚,不解释了。
Code Cache [0xb4262000, 0xb5ac2000, 0xb7262000) total_blobs=5795nmethods=5534adapters=209free_code_cache=25103616largest_free_block=38336
代码缓存(Code Cache)。这是一块用于编译和保存本地代码的内存,注意是本地代码,它和PermGen(永久代)是不同的,永久带是用来存放Java类定义的。
Dynamic libraries: 00101000-00122000 r-xp 00000000 08:01 3483560 /usr/lib/libjpeg.so.62.0.0 00122000-00123000 rwxp 00020000 08:01 3483560 /usr/lib/libjpeg.so.62.0.0 00125000-00130000 r-xp 00000000 08:01 9093202 /lib/libgcc_s-4.1.2-20080825.so.1 00130000-00131000 rwxp 0000a000 08:01 9093202 /lib/libgcc_s-4.1.2-20080825.so.1 ... ...
内存映射。这些信息是虚拟机崩溃时的虚拟内存列表区域。在定位崩溃缘由的时候,它能够告诉你哪些类库正在被使用,位置在哪里,还有堆栈和守护页信息。就以列表中第一条为例说明:
每个lib都有两块虚拟内存区域——代码和数据,它们的权限不一样,代码区域是r-xp;数据区域是rwxp。守护页(guard page)由权限为--xp和rwxp的一对组成。
VMArguments: jvm_args: -Dosgi.requiredJavaVersion=1.5-XX:MaxPermSize=256m -Xms40m -Xmx512m -Dorg.eclipse.swt.browser.XULRunnerPath='' java_command: /.../eclipse/plugins/org.eclipse.equinox.launcher_1.2.0.v20110502.jar -os linux -ws gtk -arch x86 -showsplash -launcher /.../eclipse/eclipse -name Eclipse ... Launcher Type:SUN_STANDARD Environment Variables: PATH=... DISPLAY=:0.0
虚拟机参数和环境变量。
Signal Handlers: SIGSEGV: [libjvm.so+0x726440], sa_mask[0]=0x7ffbfeff, sa_flags=0×10000004 SIGBUS: [libjvm.so+0x726440], sa_mask[0]=0x7ffbfeff, sa_flags=0×10000004 … …
信号句柄。对于Linux下的信号机制,参阅wiki百科。
OS:Red Hat Enterprise Linux Client release 5.4 (Tikanga) uname:Linux 2.6.18-164.el5 #1 SMP Tue Aug 18 15:51:54 EDT 2009 i686 libc:glibc 2.5 NPTL 2.5 rlimit: STACK 10240k, CORE 0k, NPROC 65536, NOFILE 1024, AS infinity load average:1.78 1.58 1.54 /proc/meminfo: … CPU:total 4 (4 cores per cpu, 1 threads per core) family 6 model 42 stepping 7, cmov, cx8, fxsr, mmx, sse, sse2, sse3, ssse3 /proc/cpuinfo: … Memory: 4k page, physical 3631860k(155144k free), swap 5124724k(5056452k free)
系统信息。