JVM致命错误⽇志(hs_err_pid.log)分析(转载)
当jvm出现致命错误时,会⽣成⼀个错误⽂件 hs_err_pid<pid>.log,其中包括了导致jvm crash的重要信息,可以通过分析该⽂件定位到导致crash的根源,从⽽改善以保证系统稳定。当出现crash时,该⽂件默认会⽣成到⼯作⽬录下,然⽽可以通过jvm参数指定⽣成路径(JDK6中引⼊):
-XX:ErrorFile=./hs_err_pid<pid>.log
该⽂件包含如下⼏类关键信息:
⽇志头⽂件
导致crash的线程信息
所有线程信息
安全点和锁信息
堆信息
本地代码缓存
编译事件
gc相关记录
jvm内存映射
jvm启动参数
服务器信息
下⾯⽤⼀个crash demo⽂件逐步解读这些信息,以便⼤家以后碰到crash时⽅便分析。
⽇志头⽂件
⽇志头⽂件包含概要信息,简述了导致crash的原因。⽽导致crash的原因很多,常见的原因有jvm⾃⾝的bug,应⽤程序错误,jvm参数配置不当,服务器资源不⾜,jni调⽤错误等。
现在参考下如下描述:
#
# A fatal error has been detected by the Java Runtime Environment:
#
#  SIGSEGV (0xb) at pc=0x00007fb8b18fdc6c, pid=191899, tid=140417*********
#
# JRE version: Java(TM) SE Runtime Environment (7.0_55-b13) (build 1.7.0_55-b13)
# Java VM: Java HotSpot(TM) 64-Bit Server VM (24.55-b03 mixed mode linux-amd64 compressed oops)
# Problematic frame:
# J  org.apache.kie.BestMatchSpec.formatCookies(Ljava/util/List;)Ljava/util/List;
#
# Failed to write core dump. Core dumps have been disabled. To enable core dumping, try "ulimit -c unlimited" before starting Java again
#
# If you would like to submit a bug report, please visit:
#  bugreport.sun/bugreport/crash.jsp
#
这⾥⼀个重要信息是“SIGSEGV(0xb)”表⽰jvm crash时正在执⾏jni代码,⽽不是在执⾏java或者jvm的代码,如果没有在应⽤程序⾥⼿动调⽤jni代码,那么很可能是JIT动态编译时导致的该错误。其中SIGSEGV是信号名称,0xb是信号码,pc=0x00007fb8b18fdc6c指的是程序计数器的值,pid=191899是进程号,tid=140417*********是线程号。
PS:除了“SIGSEGV(0xb)”以外,常见的描述还有“EXCEPTION_ACCESS_VIOLATION”,该描述表⽰jvm crash时正在执⾏jvm⾃⾝的代码,这往往是因为jvm的bug导致的crash;另⼀种常见的描述是“EXCEPTION_STACK_OVERFLOW”,该描述表⽰这是个栈溢出导致的错误,这往往是应⽤程序中存在深层递归导致的。
还有⼀个重要信息是:
# Problematic frame:
# J org.apache.kie.BestMatchSpec.formatCookies(Ljava/util/List;)Ljava/util/List;
这表⽰出现crash时jvm正在执⾏的代码,这⾥的“J”表⽰正在执⾏java代码,后⾯的表⽰执⾏的⽅法栈。除了“J”外,还有可能是“C”、“j”、“V”、“v”,它们分别表⽰:
C: Native C frame
j: Interpreted Java frame
V: VMframe
v: VMgenerated stub frame
J: Other frame types, including compiled Java frames
加上前⾯对SIGSEGV(0xb)”的分析,现在可以断定是JIT动态编译导致的该错误。
查阅资料发现:
此异常是由于jdk JIT compiler optimization 导致,bug id 8021898,官⽹描述如下:
The JIT compiler optimization leads to a SIGSEGV or an NullPointerException at a place it must not happen.
jdk1.7.0_25到1.7.0_55这⼏个版本都存在此bug,1.7.0_60后修复。可通过升级jdk解决此异常,可参考。
到这⾥该问题已经分析出原因了,但是咱们可以再深⼊⼀步,分析下其它信息。
导致crash的线程信息
⽂件下⾯是导致crash的线程信息和该线程栈信息,描述信息如下:
Current thread (0x00007fb7b4014800):  JavaThread "catalina-exec-251" daemon [_thread_in_Java, id=205044, stack(0x00007fb58f435000,0x00007fb58f536000)]
siginfo:si_signo=SIGSEGV: si_errno=0, si_code=1 (SEGV_MAPERR), si_addr=0x0000003f96dc9c6c
以上表⽰导致出错的线程是0x00007fb7b4014800(指针),线程类型是JavaThread,JavaThread表⽰执⾏的是java线程,关于该线程其它类型还可能是:
VMThread:jvm的内部线程
CompilerThread:⽤来调⽤JITing,实时编译装卸class 。通常,jvm会启动多个线程来处理这部分⼯作,线程名称后⾯的数字也会累加,例如:CompilerThread1 GCTaskThread:执⾏gc的线程
WatcherThread:jvm周期性任务调度的线程,是⼀个单例对象。该线程在JVM内使⽤得⽐较频繁,⽐如:定期的内存监控、JVM运⾏状况监控,还有我们经常需要去执⾏⼀些jstat 这类命令查看gc的情况
ConcurrentMarkSweepThread:jvm在进⾏CMS GC的时候,会创建⼀个该线程去进⾏GC,该线程被创建的同时会创建⼀个SurrogateLockerThread(简称SLT)线程并且启动它,SLT启动之后,处于等待阶段。CMST开始GC时,会发⼀个消息给SLT让它去获取Java层Reference对象的全局锁:Lock
后⾯的”catalina-exec-251″表⽰线程名,带有catalina前缀的线程⼀般是tomcat启动的线程,“daemon”表⽰该线程为守护线程,再后⾯的“[_thread_in_Java”表⽰线程正在执⾏解释或者编译后的Java代码,关于该描述其它类型还可能是:
_thread_in_native:线程当前状态
_thread_uninitialized:线程还没有创建,它只在内存原因崩溃的时候才出现
_thread_new:线程已经被创建,但是还没有启动
_thread_in_native:线程正在执⾏本地代码,⼀般这种情况很可能是本地代码有问题
_thread_in_vm:线程正在执⾏虚拟机代码
_thread_in_Java:线程正在执⾏解释或者编译后的Java代码
_thread_blocked:线程处于阻塞状态
…_trans:以_trans结尾,线程正处于要切换到其它状态的中间状态
最后的“id=205044”表⽰线程ID,stack(0x00007fb58f435000,0x00007fb58f536000)表⽰栈区间。
“siginfo:si_signo=SIGSEGV: si_errno=0, si_code=1 (SEGV_MAPERR), si_addr=0x0000003f96dc9c6c”这部分是导致虚拟机终⽌的⾮预期的信号信息:其中si_errno和si_code 是Linux下⽤来鉴别异常的,Windows下是⼀个ExceptionCode。
所有线程信息
再下⾯是线程信息:
Java Threads: ( => current thread )
0x00007fb798015800 JavaThread "catalina-exec-280" daemon [_thread_blocked, id=206093, stack(0x00007fb58d718000,0x00007fb58d819000)]
0x00007fb7a4016800 JavaThread ”catalina-exec-279″ daemon [_thread_blocked, id=206091, stack(0x00007fb58d819000,0x00007fb58d91a000)]
… …(省略)
Other Threads:
0x00007fb8b4231000 VMThread [stack: 0x00007fb854eb6000,0x00007fb854fb7000] [id=192015]
0x00007fb8b4321000 WatcherThread [stack: 0x00007fb835e6c000,0x00007fb835f6d000] [id=192414]
信息和上⾯介绍的类似,其中[_thread_blocked表⽰线程阻塞。
安全点和锁信息
再下⾯是安全点和锁信息:
VM state:not at safepoint (normal execution)
VM Mutex/Monitor currently owned by a thread: None
安全线信息为正常运⾏,其它可能得描述还有:
not at a safepoint:正常运⾏状态
at safepoint:所有线程都因为虚拟机等待状态⽽阻塞,等待⼀个虚拟机操作完成
synchronizing:⼀个特殊的虚拟机操作,要求虚拟机内的其它线程保持等待状态
锁信息为未被线程持有,Mutex是虚拟机内部的锁,⽽Monitor则是synchronized锁或者其它关联到的Java对象。
堆信息
再下⾯是堆信息:
Heap
par new generation  total 2293760K, used 1537284K [0x00000006f0000000, 0x0000000790000000, 0x0000000790000000)
eden space 1966080K,  78% used [0x00000006f0000000, 0x000000074dc97aa8, 0x0000000768000000)
from space 327680K,  0% used [0x0000000768000000, 0x00000007680a9580, 0x000000077c000000)
to  space 327680K,  0% used [0x000000077c000000, 0x000000077c000000, 0x0000000790000000)
concurrent mark-sweep generation total 1572864K, used 49449K [0x0000000790000000, 0x00000007f0000000, 0x00000007f0000000)
concurrent-mark-sweep perm gen total 262144K, used 49857K [0x00000007f0000000, 0x0000000800000000, 0x0000000800000000)
Card table byte_map: [0x00007fb8b8fa8000,0x00007fb8b9829000] byte_map_base: 0x00007fb8b5828000
堆信息包括:新⽣代、⽼⽣代、永久代信息。这⾥标识了使⽤CMS垃圾收集器。
下⾯的“Card table”表⽰⼀种卡表,是jvm维护的⼀种数据结构,⽤于记录更改对象时的引⽤,以便gc时遍历更少的table和root。
本地代码缓存
再下⾯是本地代码缓存信息:
Code Cache  [0x00007fb8b1000000, 0x00007fb8b1a60000, 0x00007fb8b4000000)
total_blobs=3580 nmethods=3111 adapters=421 free_code_cache=38857Kb largest_free_block=39469312
这是⼀块⽤于编译和保存本地代码的内存;注意是本地代码,它和PermGen(永久代)是不⼀样的,永久代是⽤来存放jvm和java类的元数据的。
编译事件
再下⾯是本地代码编译信息:
Compilation events (10 events):
Event: 110587.798 Thread 0x00007fb8b425a800 3338            java.util.HashSet::remove (20 bytes)
Event: 110587.804 Thread 0x00007fb8b425a800 nmethod 3338 0x00007fb8b168a9d0 code [0x00007fb8b168ab60, 0x00007fb8b168afa8]
.
.. ...(省略)
Event: 112147.387 Thread 0x00007fb8b425a800 3342            org.apache.kie.BestMatchSpec::formatCookies (116 bytes)
Event: 112147.465 Thread 0x00007fb8b425a800 nmethod 3342 0x00007fb8b18fcd50 code [0x00007fb8b18fd1a0, 0x00007fb8b18ff338]
可以看到,⼀共编译了10次;其中包含org.apache.kie.BestMatchSpec::formatCookies的编译;这和前⾯的结论相吻合。
gc相关记录
再下⾯是gc执⾏记录:
GC Heap History (10 events):
Event: 110665.975 GC heap before
{Heap before GC invocations=255 (full 31):
par new generation  total 2293760K, used 1966777K [0x00000006f0000000, 0x0000000790000000, 0x0000000790000000)
eden space 1966080K, 100% used [0x00000006f0000000, 0x0000000768000000, 0x0000000768000000)
from space 327680K,  0% used [0x0000000768000000, 0x00000007680ae480, 0x000000077c000000)
to  space 327680K,  0% used [0x000000077c000000, 0x000000077c000000, 0x0000000790000000)
concurrent mark-sweep generation total 1572864K, used 49237K [0x0000000790000000, 0x00000007f0000000, 0x00000007f0000000)
concurrent-mark-sweep perm gen total 262144K, used 49856K [0x00000007f0000000, 0x0000000800000000, 0x0000000800000000)
Event: 110665.981 GC heap after
Heap after GC invocations=256 (full 31):
par new generation  total 2293760K, used 693K [0x00000006f0000000, 0x0000000790000000, 0x0000000790000000)
eden space 1966080K,  0% used [0x00000006f0000000, 0x00000006f0000000, 0x0000000768000000)
from space 327680K,  0% used [0x000000077c000000, 0x000000077c0ad6f8, 0x0000000790000000)
to  space 327680K,  0% used [0x0000000768000000, 0x0000000768000000, 0x000000077c000000)
concurrent mark-sweep generation total 1572864K, used 49237K [0x0000000790000000, 0x00000007f0000000, 0x00000007f0000000)
concurrent-mark-sweep perm gen total 262144K, used 49856K [0x00000007f0000000, 0x0000000800000000, 0x0000000800000000)
}
... ...(省略)
可以看到gc次数为10次(full gc),然后后⾯描述了每次gc前后的内存信息;看⼀看到并没有内存不⾜等问题。
jvm内存映射
再下⾯是jvm加载的库信息:
Dynamic libraries:
00400000-00401000 r-xp 00000000 08:02 39454583                          /home/service/jdk1.7.0_55/bin/java
00600000-00601000 rw-p 00000000 08:02 39454583                          /home/service/jdk1.7.0_55/bin/java
013cd000-013ee000 rw-p 00000000 00:00 0                                  [heap]
6f0000000-800000000 rw-p 00000000 00:00 0
3056400000-3056416000 r-xp 00000000 08:02 57409539                      /lib64/libgcc_s-4.4.7-20120601.so.1
3056416000-3056615000 ---p 00016000 08:02 57409539                      /lib64/libgcc_s-4.4.7-20120601.so.1
3056615000-3056616000 rw-p 00015000 08:02 57409539                      /lib64/libgcc_s-4.4.7-20120601.so.1
353be00000-353be20000 r-xp 00000000 08:02 57409933                      /lib64/ld-2.12.so
353c01f000-353c020000 r--p 0001f000 08:02 57409933                      /lib64/ld-2.12.so
353c020000-353c021000 rw-p 00020000 08:02 57409933                      /lib64/ld-2.12.so
... ...(省略)
这些信息是虚拟机崩溃时的虚拟内存列表区域。它可以告诉你崩溃原因时哪些类库正在被使⽤,位置在哪⾥,还有堆栈和守护页信息。以列表中第⼀条为例介绍下:00400000-00401000:内存区域
r-xp:权限,r/w/x/p/s分别表⽰读/写/执⾏/私有/共享
00000000:⽂件内的偏移量
08:02:⽂件位置的majorID和minorID
39454583:索引节点号
/home/service/jdk1.7.0_55/bin/java:⽂件位置
jvm启动参数
再下⾯是jvm启动参数信息:
jvm调优参数VM Arguments:
jvm_args: -Djava.fig.file=/home/service/tomcat7007-account-web/conf/logging.properties -Xmx4096m -Xms4096m -Xmn2560m -XX:SurvivorRatio=6 -XX:PermSize=256m -XX:MaxPermSize=256m -XX:+UseConcMarkSweepGC -X java_command: org.apache.catalina.startup.Bootstrap start
Launcher Type: SUN_STANDARD
Environment Variables:
JAVA_HOME=/home/service/jdk1.7.0_55
PATH=/opt/zabbix/bin:/opt/zabbix/sbin:/home/service/jdk1.7.0_55/bin:/home/work/bin:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/home/work/bin
SHELL=/bin/bash
上⾯是jvm参数,下⾯是系统的环境配置。
服务器信息
再下⾯是服务器信息:
/proc/meminfo:
MemTotal:      65916492 kB
MemFree:        14593468 kB
Buffers:          222452 kB
Cached:        28502452 kB
SwapTotal:            0 kB
SwapFree:              0 kB
... ...(省略)
/proc/cpuinfo:
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model  : 62
model name : Intel(R) Xeon(R) CPU E5-2420 v2 @ 2.20GHz
stepping : 4
... ...(省略)
上⾯是内存信息,主要关注下swap信息,看看有没有使⽤虚拟内存;下⾯是cpu信息。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。