玩转Arthas

我的感觉

其实很早以前就据说过Arthas这个工具,只知道是在线诊断工具,也一直没有去了解,该怎么用?有啥用?据说好像很厉害?也一直停留在据说阶段,不知道你们有没有同感。可是在去年(2019)下半年的时候须要处理的生产环境问题愈来愈多,也愈来愈复杂,定位问题变得愈来愈繁琐,总结起来遇到最多的问题就是如下几点:html

  1. 为何单元测试一样的参数是能够的,到了生产环境却没有返回值?是我没有传进去吗?
  2. 为何个人代码感受没生效?(是否是没有发上去?仍是打包有问题?确定不是个人问题,个人代码是最棒的的!)
  3. 为何接口这么慢啊?这方法几百行我要一行一行加日志打印时间(吐血...)?
  4. 怎么感受这个没有调用到个人方法呀?感受调用路径不对?生产环境又不能debug!
  5. 为何个人静态变量获取不到?值对不上?
  6. 程序死锁了,是咋回事儿,哪里锁了?
  7. 内存占用好高啊,想看一下dump日志?
  8. ...

当我看到官网简介的时候,嗯?!这不就是专门为我准备的吗?我决定玩儿一下,盘它!java

官网简介

Arthas 是Alibaba开源的Java诊断工具,深受开发者喜好。git

当你遇到如下相似问题而一筹莫展时,Arthas能够帮助你解决:github

  1. 这个类从哪一个 jar 包加载的?为何会报各类类相关的 Exception?
  2. 我改的代码为何没有执行到?难道是我没 commit?分支搞错了?
  3. 遇到问题没法在线上 debug,难道只能经过加日志再从新发布吗?
  4. 线上遇到某个用户的数据处理有问题,但线上一样没法 debug,线下没法重现!
  5. 是否有一个全局视角来查看系统的运行情况?
  6. 有什么办法能够监控到JVM的实时运行状态?
  7. 怎么快速定位应用的热点,生成火焰图?

Arthas支持JDK 6+,支持Linux/Mac/Winodws,采用命令行交互模式,同时提供丰富的 Tab 自动补全功能,进一步方便进行问题的定位和诊断。web

使用方式

Arthas的使用方式很是简单spring

下载arthas-bin.zip

直接到github releases中下载本身想要的版本,arthas-bin.zip docker

在这里插入图片描述

找到arthas-boot.jar

解压后能够看到有不少jar包,咱们须要使用的就是arthas-boot.jar,由于我以前用过其余版本因此我把它修改一下名字arthas-boot-3.3.6.jar 数组

在这里插入图片描述

模拟场景

你们能够看到压缩包中是有arthas-demo.jar的,可是demo里面的场景比较少,因此我这边本身模拟咱们常常遇到的场景,也方便咱们修改和调试。我这边就拿我前两天作Spring Boot 使用docker整合MongoDB的demo来用。模拟了最多见的一些场景,还原上面的几个点。我这边直接添加了一个Controller模拟了常规方法和死锁,而后用Arthas来排查问题,首先须要启动项目。浏览器

package com.example.mongo.controller;

import com.example.mongo.entity.UserEntity;
import com.example.mongo.service.UserService;

import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestBody;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;

import java.util.Arrays;
import java.util.List;
import java.util.Objects;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

import javax.annotation.Resource;

import lombok.SneakyThrows;

@RestController
@RequestMapping("arthas")
public class ArthasController {

    private static ExecutorService executors = Executors.newFixedThreadPool(2);
    private static String NAME = "DW";

    @Resource
    private UserService userService;

    @SneakyThrows
    @GetMapping("normal")
    public List<String> normal( @RequestParam("param") Integer param ) {
        if (Objects.isNull(param)) throw new IllegalArgumentException("param is null");
        userService.findById(1L);
        return Arrays.asList("david", "david1");
    }

    @GetMapping("deadlock")
    public void deadlock() {
        UserEntity a = new UserEntity();
        UserEntity b = new UserEntity();
        executors.execute(() -> {
            synchronized (a) {
                System.out.println(Thread.currentThread().getName() + "get A lock! start sleep");
                NAME = Thread.currentThread().getName() + "1a";
                try {
                    Thread.sleep(1000);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
                System.out.println(Thread.currentThread().getName() + "sleep end start get B lock!");
                synchronized (b) {
                    NAME = Thread.currentThread().getName() + "1b";
                    System.out.println(Thread.currentThread().getName() + "get B lock!");
                }
            }

        });
        executors.execute(() -> {
            synchronized (b) {
                System.out.println(Thread.currentThread().getName() + "get B lock! start sleep");
                NAME = Thread.currentThread().getName() + "2b";
                try {
                    Thread.sleep(1000);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
                System.out.println(Thread.currentThread().getName() + "sleep end start get A lock!");
                synchronized (a) {
                    System.out.println(Thread.currentThread().getName() + "get A lock!");
                    NAME = Thread.currentThread().getName() + "2a";
                }
            }

        });

    }


}


// userService#findById
@Override
@SneakyThrows
public UserEntity findById( Long id ) {
    List<UserEntity> david = this.findByName("david");
    if (!CollectionUtils.isEmpty(david)) {
        david.forEach(System.out::println);
    }
    Thread.sleep(100);
    return userRepository.findById(id).orElse(new UserEntity());
}
复制代码

启动Arthas

  1. 启动Arthas以后会出现进程列表,找到咱们的MongoApplication,编号为6,输入6回车,Arthas就启动成功。
    在这里插入图片描述
  2. 能够看到INFO日志里面有一句[INFO] arthas-client connect 127.0.0.1 3658由于咱们是本地调试因此能够直接使用浏览器访问localhost:3658,在web console中来操做,效果以下。

【Arthas官网】 默认状况下,arthas只listen 127.0.0.1,因此若是想从远程链接,则可使用 --target-ip参数指定listen的IP,更多参考-h的帮助说明。 注意会有安全风险,考虑下面的tunnel server的方案。安全

在这里插入图片描述

处理问题

1. 为何单元测试一样的参数是能够的,到了生产环境却没有返回值?是我没有传进去吗?

  • 这种场景下咱们可使用watch命令监控咱们的目标方法,查看入参,出参和异常信息。

  • 命令格式:watch <类的全限定名> <方法名> '{params, returnObj, throwExp}'

  • params若是是数组的话可使用params[0],params[1]来查看,returnObj表示返回值,throwExp表示异常信息,若是只想看入参,只写params信息就能够,returnObjthrowExp也是同样。输入watch com.example.mongo.controller.ArthasController normal '{params, returnObj, throwExp}'回车即开始监控。

    在这里插入图片描述

  • 不传参试一下http://localhost:8080/arthas/normal?param,报错了,param is null

    在这里插入图片描述

  • 传参http://localhost:8080/arthas/normal?param=1,入参出参都打印了,可是没有具体值,修改一下命令,watch com.example.mongo.controller.ArthasController normal '{params[0], returnObj[0], returnObj[1], throwExp}'从新执行

    在这里插入图片描述

  • 修改命令以后效果以下:

    在这里插入图片描述

2. 我改的代码为何没有执行到?难道是我没 commit?分支搞错了?

两种办法:

  1. 把咱们运行的jar包download下来反编译
  2. Arthas

既然主要是讲Arthas那确定是选择Arthas啦,下次必定! 这里须要使用到jad命令,直接对咱们的目标类或者目标方法进行反编译查看。

  • 命令格式:jad <类的全限定名>/<类的全限定名> <方法名>
  • 输入jad com.example.mongo.controller.ArthasController normal回车,便可查看正在运行的代码究竟是什么样子,是美发不上去呢,仍是写bug,拒绝甩锅。因为类信息较长,就不截图了输入jad com.example.mongo.controller.ArthasController回车便可查看。
  1. 类加载器
  2. 地址
  3. 方法信息
    在这里插入图片描述

3. 为何接口这么慢啊?这方法几百行我要一行一行加日志打印时间(吐血...)?

  • trace 命令能主动搜索 class-pattern/method-pattern 对应的方法调用路径,渲染和统计整个调用链路上的全部性能开销和追踪调用链路。
  • 命令格式:trace <类的全限定名> <方法名>
  • 输入trace com.example.mongo.controller.ArthasController normal回车,能够看到时间主要消耗在UserService#findById()
    在这里插入图片描述
    继续追踪trace com.example.mongo.service.UserService findById,能够看到总耗时为109ms,方法耗时综合在9ms左右,Thread.sleep(100)不会打印,这个时候对比一下代码就能够锁定具体问题了。
    在这里插入图片描述

4. 怎么感受这个没有调用到个人方法呀?感受调用路径不对?生产环境又不能debug!

  • 不少时候咱们都知道一个方法被执行,但这个方法被执行的路径很是多,或者你根本就不知道这个方法是从那里被执行了,此时你须要的是 stack 命令。
  • 命令格式:stack <类的全限定名> <方法名>
  • 输入stack com.example.mongo.controller.ArthasController normal
    在这里插入图片描述

5. 为何个人静态变量获取不到?值对不上?

  • 经过getstatic命令能够方便的查看类的静态属性。
  • 命令格式:getstatic <类的全限定名> <方法名>
  • 输入getstatic com.example.mongo.controller.ArthasController NAME回车。
    在这里插入图片描述

6. 程序死锁了,是咋回事儿,哪里锁了?

  • 访问http://localhost:8080/arthas/deadlock复现死锁,如今两个线程相互等待对方释放资源。
    在这里插入图片描述
  • 这里咱们须要使用Thread命令来查看咱们的线程信息。能够看到pool-1-thread-1pool-1-thread-2阻塞了,这也是为何建议你们在使用线程池的时候必定要命名的缘由,前面线程池的blog有详细讲解。传送门Davids原理探究:ThreadPoolExecutor原理
    在这里插入图片描述
  • 咱们看一下命名以后的效果,一目了然。
    在这里插入图片描述
  • 还可使用thread -b直接查看block状态的线程信息,锁定缘由。
    在这里插入图片描述
  • 还可使用thread -n <num>查看cpu使用率最高的num个线程用于排查cpu占用高的场景,相关信息也很是详细。
    在这里插入图片描述

7. 内存占用好高啊,想看一下dump日志?

通常在配置JVM的时候建议打开dump日志,一旦出现内存溢出方便排查,可是在内存达到报警阈值或者内存在某个版本发布以后长期处于高占用状态的时候,咱们能够采用Arthas进行heapdump分析缘由(相似jmap命令的heap dump功能)。

命令格式:

  • dump到指定文件heapdump <path> 示例:heapdump /tmp/dump.hprof
  • 只dump live对象heapdump --live <path> 示例:heapdump --live /tmp/dump.hprof
  • dump到临时文件heapdump 示例:heapdump
    在这里插入图片描述
    查看dump文件生成成功,因为篇幅缘由,如何排查dump后面再专门作一篇blog。
    在这里插入图片描述

总结

其实Arthas还有很是多的丰富的功能,本篇博客只是介绍了一些很是基础和我经常使用的,并且这些命令还有不少高级用法,你们感兴趣的能够去玩一玩。官网传送门

相关文章
相关标签/搜索