背景:经过性能监控发现上线服务器cpu某核占用率已经达到了100%,并且是由咱们的某个核心服务致使的。幸好因为咱们的服务进程由多个相同worker(线程)调度承担的,因此除了CPU占用率高以外,并无对服务形成影响。随着上次咱们找到那个吃IO的罪犯,此次咱们要追捕的是潜伏在团体中的特务,更加惊险刺激哟!程序员
系统环境服务器
用top命令很容易定位到是谁占用CPU最高。多线程
以咱们的这个业务进程(imDevServer)举例,为何说这货是个潜伏者呢?由于这是个多线程的进程,咱们要知道实际上占用cpu的最小单位是线程,因此确定是众线程中的某一个或几个占用CPU太高致使的。top -H -p pid命令查看进程内各个线程占用的CPU百分比ide
如上图所示咱们能够看出id为8863的线程cpu占用率最高。好,咱们如今只要能找到他偷走的cpu就行了,虽然这小子嘴巴严,可是咱们有一套完善的审问流程,不怕他不招。首先出马的是strace -T -r -c -p pid命令oop
它的做用是查看系统调用和花费的时间,epoll_wait虽然占用的调用时间多,可是他自己是个正常的阻塞调用。性能
咱们接着让pstack pid出马spa
能够看到每一个线程的调用堆栈,找到已经找出的占用CPU最高的那个线程,而后看他的调用堆栈,很容易看出在哪一步逻辑上致使了busy loop,线程
再使用trace -p tid看看线程的调用过程接着定位到代码,修复bug,找回被偷走的cpu。3d
后记:其实做为一个程序员,我感受最大的乐趣不是洋洋洒洒的写程序,而是去寻找一些“高端”bug,也许就和有些刑警痴迷于侦破案件同样,这就是对技术的热爱。code