几种分布式调用链监控组件的实践与比较（一）实践

时间 2019-11-16

原文原文链接

引言：最近在调研与选型分布式调用链监控组件。选了主要的三种APM组件进行了实践与比较。原本打算一篇文章写完的，篇幅太长，打算分两篇。本文主要讲下链路traceing的基本概念和几种APM组件的实践，实践部分也没给出特别详细的步骤，由于本文重点不在具体的步骤。第二篇将会讲下几种APM选型的比较与性能测试。html

1. 问题背景

微服务架构下，服务按照不一样的维度进行拆分，一次请求请求每每须要涉及到多个服务。互联网应用构建在不一样的软件模块集上，这些软件模块，有多是由不一样的团队开发、可能使用不一样的编程语言来实现、有可能布在了几千台服务器，横跨多个不一样的数据中心。所以，就须要一些能够帮助理解系统行为、用于分析性能问题的工具，以便发生故障的时候，可以快速定位和解决问题。java

分布式调用链监控组件在这样的环境下产生了。最出名的是谷歌公开的论文提到的Dapper。开发Dapper是为了收集更多的复杂分布式系统的行为信息，而后呈现给Google的开发者们。这样的分布式系统有一个特殊的好处，由于那些大规模的低端服务器，做为互联网服务的载体，是一个特殊的经济划算的平台。想要在这个上下文中理解分布式系统的行为，就须要监控那些横跨了不一样的应用、不一样的服务器之间的关联动做。mysql

市面上的APM（Application Performance Management）理论模型大多都是借鉴（borrow）Google Dapper论文，本文重点关注如下几种APM组件：git

Zipkin
由Twitter公司开源，开放源代码分布式的跟踪系统，用于收集服务的定时数据，以解决微服务架构中的延迟问题，包括数据的收集、存储、查找和展示。
Pinpoint
Pinpoint是一款对Java编写的大规模分布式系统的APM工具，由韩国人开源的分布式跟踪组件。
Skywalking
国产的优秀APM组件，是一个对JAVA分布式应用程序集群的业务运行状况进行追踪、告警和分析的系统。

其余相似的组件还有美团点评的CAT，淘宝的鹰眼EgleEye。程序员

如上所述，那么咱们选择链路监控组件有哪些要求呢？Dapper中也提到了，笔者总结以下：github

探针的性能消耗。
APM组件服务的影响应该作到足够小。在一些高度优化过的服务，即便一点点损耗也会很容易察觉到，并且有可能迫使在线服务的部署团队不得不将跟踪系统关停。web
代码的侵入性
对于应用的程序员来讲，是不须要知道有跟踪系统这回事的。若是一个跟踪系统想生效，就必须须要依赖应用的开发者主动配合，那么这个跟踪系统也太脆弱了，每每因为跟踪系统在应用中植入代码的bug或疏忽致使应用出问题，这样才是没法知足对跟踪系统“无所不在的部署”这个需求。redis
可扩展性
可以支持的组件越多固然越好。或者提供便捷的插件开发API，对于一些没有监控到的组件，应用开发者也能够自行扩展。spring
数据的分析
数据的分析要快，分析的维度尽量多。跟踪系统能提供足够快的信息反馈，就能够对生产环境下的异常情况作出快速反应。分析的全面，可以避免二次开发。sql

2. 基础概念

上面列出的几种组件，其中Zipkin是严格按照Google Dapper论文实现的，下面介绍下其中涉及的基本概念。

Span
基本工做单元，一次链路调用(能够是RPC，DB等没有特定的限制)建立一个span，经过一个64位ID标识它，uuid较为方便，span中还有其余的数据，例如描述信息，时间戳，key-value对的(Annotation)tag信息，parent-id等,其中parent-id能够表示span调用链路来源。
Trace:相似于树结构的Span集合，表示一条调用链路，存在惟一标识。好比你运行的分布式大数据存储一次Trace就由你的一次请求组成。
Annotation: 注解,用来记录请求特定事件相关信息(例如时间)，一般包含四个注解信息：
(1) cs：Client Start,表示客户端发起请求

(2) sr：Server Receive,表示服务端收到请求

(3) ss：Server Send,表示服务端完成处理，并将结果发送给客户端

(4) cr：Client Received,表示客户端获取到服务端返回信息

2.1 Trace

下面看一下，在系统中Trace是什么样子。

每种颜色的note标注了一个span，一条链路经过TraceId惟一标识，Span标识发起的请求信息。树节点是整个架构的基本单元，而每个节点又是对span的引用。节点之间的连线表示的span和它的父span直接的关系。虽然span在日志文件中只是简单的表明span的开始和结束时间，他们在整个树形结构中倒是相对独立的。

2.2 Span

上图说明了span在一次大的跟踪过程当中是什么样的。Dapper记录了span名称，以及每一个span的ID和父ID，以重建在一次追踪过程当中不一样span之间的关系。若是一个span没有父ID被称为root span。全部span都挂在一个特定的跟踪上，也共用一个跟踪id。

2.3 Annotation

自动的探针，不须要修改应用程序源代码，对应用开发者近乎零浸入的成本对分布式控制路径进行跟踪，几乎彻底依赖于基于少许通用组件库的改造。Dapper还容许应用程序开发人员在Dapper跟踪的过程当中添加额外的信息，以监控更高级别的系统行为，或帮助调试问题。

下面章节将会介绍下上述三种APM组件的使用与实践。

3. zipkin

zipkin主要涉及几个组件：collector收集agent的数据，storage存储，web UI图形化界面，search查询Storage中存储的数据,提供简单的JSON API获取数据。

咱们的项目基于微服务框架spring cloud构建微服务。spring cloud也提供了spring-cloud-sleuth来方便集成zipkin实现。因此笔者就在项目中试了下spring-cloud-sleuth-zipkin。

起了三个服务：
zipkin-server、zipkin-client-backend、zipkin-client。
其中server服务负责收集以及信息展现。client-backend调用client，产生调用链路信息。

3.1 zipkin-server实现

zipkin-server实现主要有两点须要注意，其一是收集到数据的存储，方式包括内存、数据库、ES等；其二是通讯方式，包括http通讯和mq异步方式通讯，http通讯会对正常的访问形成影响，因此仍是推荐基于mq异步方式通讯。

本文使用mysql做为存储，使用MQ通讯，MQ通讯基于Spring-cloud-Stream。本文重点不在zipkin-server的具体几种实现方式，其余方式，读者能够本身去官网查看。

（1）pom须要添加的引用以下：

<dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter</artifactId>
    </dependency>

    <!--zipkin依赖-->
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-sleuth-zipkin-stream</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-starter-stream-rabbit</artifactId>
    </dependency>
    <dependency>
        <groupId>io.zipkin.java</groupId>
        <artifactId>zipkin-autoconfigure-ui</artifactId>
        <scope>runtime</scope>
    </dependency>

    <!--保存到数据库须要以下依赖-->
    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-jdbc</artifactId>
    </dependency>复制代码

（2）启动类：

// 使用Stream方式启动ZipkinServer
@EnableZipkinStreamServer
@SpringBootApplication
public class ZipkinStreamServerApplication {
    public static void main(String[] args) {
        SpringApplication.run(ZipkinStreamServerApplication.class,args);
    }
}复制代码

@EnableZipkinStreamServer注解引入了@EnableZipkinServer注解，同时还建立了一个rabbit-mq的SleuthSink消息队列监听器。

（3）配置文件

server:
 port: 9411

spring:
 datasource:
 username: root
 password: root123
    schema[0]: classpath:/zipkin.sql

zipkin:
 storage:
 type: mysql

---
spring:
 application:
 name: microservice-zipkin-stream-server
 rabbitmq:
 host: ${RABBIT_ADDR:localhost}
 port: ${RABBIT_PORT:5672}
 username: guest
 password: guest
 sleuth:
 enabled: false
 profiles: default
 datasource:
 url:  jdbc:mysql://localhost:3307/zipkin?autoReconnect=true&useSSL=false复制代码

zipkin.sql能够去官网获取，设置了zipkin-server的端口号为9411。

3.2 zipkin-client

两个zipkin-client的配置同样，因此放在一块儿。

（1）pom依赖

<dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-sleuth-zipkin-stream</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-stream-rabbit</artifactId>
        </dependency>

        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-sleuth</artifactId>
        </dependency>复制代码

(2) 配置文件

spring:
 rabbitmq:
 host: 127.0.0.1
    port : 5672
 username: guest
 password: guest复制代码

3.3 结果

服务之间的调用关系以下：

能够看到客户端的请求通过gateway，调用内网中的各个服务，部分还涉及到调用notice服务。从图中能够清楚的看出客户端请求所通过的服务。
下面看下demo2-default服务实例中的http path：

上图中demo2-default服务的几个http path按照时长排序，显示了trace调用时长和span数量。点进去能够看到：

图中列出了从父span开始，每个span的耗时。本次trace中，涉及到两个服务demo1和demo2。demo2调用demo1，从597ms开始调用demo1，完成最终的请求总共耗时1265ms。

4. pinpoint

对代码零侵入，运用JavaAgent字节码加强技术，只须要加启动参数便可。
pinpoint的几个组件部分和zipkin差很少，架构图以下：

Pinpoint-Collector收集各类性能数据、Pinpoint-Agent和本身运行的应用关联起来的探针、Pinpoint-Web将收集到的数据显示成WEB网页形式、HBase Storage收集到的数据存到HBase中。

4.1 pinpoint安装

主要涉及如下软件的安装：

jdk 1.8
Java环境必须的，没啥好解释。
Hbase
pinpoint收集来的测试数据，主要是存在Hbase数据库的。因此它能够收集大量的数据，能够进行更加详细的分析。Hbase安装完成后，须要初始化Hbase的pinpoint库，由pinpoint提供。Hbase内置了zookeeper。
pinpoint-collector
collector收集agent的数据，将数据存到hbase集群，对外暴露collector的tcp和udp的监听端口9994，9995，9996。
pinpoint-web
页面展现，配置文件中设置环境变量HBASE_HOST、HBASE_PORT等。
pinpoint-agent

到官网release页面下载pinpoint-agent-x-SNAPSHOT.tar.gz，配置pinpoint.config中相关collector的信息。

安装确实还比较麻烦，本文篇幅太长了，具体步骤后面再单独写文章讲解。

4.2 运行pinpoint-agent

笔者使用的是spring-boot项目，因此只须要在启动jar包的命令中加入-javaagent参数，并指定pinpoint-bootstrap包的绝对路径。实例代码以下：

java -javaagent:/aoho/auth_compose/pinpoint-bootstrap-1.6.0.jar -Dpinpoint.agentId=aoho-consumer -Dpinpoint.applicationName=aoho-consumer -jar id_generator/snowflake-id-generate-1.0-SNAPSHOT.jar复制代码

起的id生成器服务比较简单，没有用到数据库等存储介质。服务注册到consul上，本地客户端请求了id-server获取id。其调用链以下：

pinpoint提供的功能比较丰富，下图是调用/api/id接口的详细信息。

能够看到，pinpoint记录了客户端的相应时间、IP地址等，调用树在下面也有详细列出，每一个方法的耗时等。

serverMap中还展现了服务器的堆、永久代、CPU等信息，很是强大。

5. Skywalking

Skywalking是国内开源的APM监控组件，官网OpenSkywalking，根据官网介绍，其着力于性能和实时性两方面。
网上找到的Skywalking的架构图。

能够看到Skywalking也是四部分组成，collector、agent、web、storage。支持集群部署，集群之间还引入了grpc通讯。存储支持内置的h2和elasticsearch存储。

5.1 安装

具体安装可见官网。

collector安装
此处笔者使用单机版的collector，在release页面下载好压缩包，解压后，单机版的collector默认使用h2数据库，因此配置文件能够不须要修改，便可以运行bin/startup.sh。

目录结构如上，logs文件夹中，有启动的日志，能够查看启动状况。

web
解压好skywalking-ui，设置server的config/collector_config.properties、log4j2以及监听端口等相关信息，
agent
拷贝skywalking-agent目录到所需位置，探针包含整个目录，设置/config/agent.config中的collector信息。