SpringCloud学习笔记【十】：Hystrix服务降级、熔断以及DashBoard图形化监控

时间 2020-11-23

标签 html java git github web spring 后端缓存 springboot 服务器栏目 HTML 繁體版

原文原文链接

本篇要点

简单了解分布式系统目前面临的问题。
简单了解Hystrix服务降级、熔断、限流的概念。
实战服务降级和服务熔断。
理解Hystrix的工做流程。
实战使用Hystrix图形化监控页面。

分布式系统面临的问题

服务雪崩：多个微服务之间调用的时候，假设微服务A调用微服务B和微服务C，微服务B和微服务C又调用其余的微服务，这就是所谓的“扇出”。若是扇出的链路上某个微服务的调用响应时间过长或不可用，对微服务A的调用就会占用愈来愈多的系统资源，进行引发系统崩溃。html

对于高流量的应用来讲，单一的后端依赖可能会致使全部服务器上的全部资源都在几秒钟内饱和。比失败更糟糕的是，这些应用程序还可能致使服务之间的延迟增长，备份队列，线程和其余系统资源紧张，致使整个系统发生更多的级联故障。java

这些都表示须要对故障和延迟进行隔离和管理，以便单个依赖关系的失败，不能取消整个应用程序或系统。git

Hystrix概述

官网： https://github.com/Netflix/Hystrix/wikigithub

目前已经进入维护模式。web

Hystrix是啥？

Hystrix是一个用于处理分布式系统的延迟和容错的开源库，在分布式系统里，许多依赖必不可免的会调用失败，好比超时、异常等，Hystrix可以保证在一个依赖出问题的状况下，不会致使总体服务失败，避免级联鼓掌，以提升分布式系统的弹性。spring

断路器自己是一种开关装置，当某个服务单元发生故障以后，经过断路器的故障监控（相似熔断保险丝）向调用方返回一个符合预期的、可处理的备选响应（Fallback），而不是常见的等待或者抛出调用方没法处理的异常，这样就保证了服务调用方的线程不会被长时间、没必要要地占用，从而避免了故障在分布式系统中的蔓延，乃至雪崩。后端

Hystrix能干啥？

提供保护并控制延迟和失败。
中止复杂的分布式系统中的级联故障。
快速失败而且快速恢复。
回退，并在可能的状况下正常降级。
启用近乎实时的监控，警报和操做控制。

Hystrix重要概念

服务降级fallback

当服务器压力剧增的状况下，根据实际业务状况及流量，对一些服务和页面有策略的不处理或换种简单的方式处理，从而释放服务器资源以保证核心交易正常运做或高效运做。缓存

服务熔断break

服务熔断的做用相似于咱们家用的保险丝，当某服务出现不可用或响应超时的状况时，为了防止整个系统出现雪崩，暂时中止对该服务的调用。springboot

服务限流flowlimit

限流的目的是为了保护系统不被大量请求冲垮，经过限制请求的速度来保护系统。服务器

Hystrix演示-构建异常环境

Spring Cloud Netflix# Circuit Breaker:Hystrix Clients

咱们先准备环境，准备一个正常的接口方法和一个模拟延迟五秒的接口方法。

建立新模块，引入依赖

spring-cloud-starter-netflix-hystrix依赖引入。

<!--hystrix-->
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
        </dependency>
        <!--eureka client-->
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-netflix-eureka-client</artifactId>
        </dependency>

编写yml

server:
  port: 8001

spring:
  application:
    name: cloud-provider-hystrix-payment # 服务名称!

eureka:
  client:
    #表示是否将本身注册进EurekaServer默认为true。
    register-with-eureka: true
    #是否从EurekaServer抓取已有的注册信息，默认为true。单节点无所谓，集群必须设置为true才能配合ribbon使用负载均衡
    fetchRegistry: true
    service-url:
      #      #单机版
      defaultZone: http://localhost:7001/eureka

编写主启动类

@SpringBootApplication
@EnableEurekaClient
public class PaymentHystrixMain8001 {
    public static void main(String[] args) {
        SpringApplication.run(PaymentHystrixMain8001.class, args);
    }
}

编写service层

@Service
public class PaymentService {

    // 正常访问
    public String paymentInfoOk(Integer id) {
        return "线程池:  " + Thread.currentThread().getName() + "  paymentInfo_OK,id:  " + id + "\t" + "O(∩_∩)O哈哈~";
    }
	// 延迟3秒
    public String paymentInfoTimeOut(Integer id) {
        //int age = 10/0;
        try {
            TimeUnit.SECONDS.sleep(5);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        return "线程池:  " + Thread.currentThread().getName() + " id:  " + id + "\t" + "O(∩_∩)O哈哈~" + "  耗时(秒): ";
    }
}

编写Controller层

@RestController
@Slf4j
public class PaymentController {
    @Resource
    private PaymentService paymentService;

    @Value("${server.port}")
    private String serverPort;

    @GetMapping("/payment/hystrix/ok/{id}")
    public String paymentInfoOk(@PathVariable("id") Integer id) {
        String result = paymentService.paymentInfoOk(id);
        log.info("*****result: " + result);
        return result;
    }

    @GetMapping("/payment/hystrix/timeout/{id}")
    public String paymentInfoTimeOut(@PathVariable("id") Integer id) {
        String result = paymentService.paymentInfoTimeOut(id);
        log.info("*****result: " + result);
        return result;
    }
}

测试构建的环境

依次启动：7001Eureka服务中心，8001服务，分别访问如下两个连接：

压力测试

当并发请求量足够大的时候，微服务会集中资源去处理响应较慢的服务，致使其余原本响应较快的服务被拖累。Tomcat默认的工做线程被打满，没有多余的线程来分解压力和处理。

若是新建消费者客户端80，8001同一层次的其余接口服务被困死，80此时调用8001，客户端的响应也会变得很慢。

Hystrix演示-服务降级

服务端服务降级

cloud-provider-hystrix-payment8001：在paymentInfoTimeOut方法上使用@HystrixCommand，并定义fallbackMethod方法。

@HystrixCommand(fallbackMethod = "paymentInfoTimeOutHandler", commandProperties = {
    @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "5000")
})

public String paymentInfoTimeOut(Integer id) {
    //int age = 10/0;
    try {
        TimeUnit.SECONDS.sleep(5);
    } catch (InterruptedException e) {
        e.printStackTrace();
    }
    return "线程池:  " + Thread.currentThread().getName() + " id:  " + id + "\t" + "O(∩_∩)O哈哈~" + "  耗时(秒): ";
}

public String paymentInfoTimeOutHandler(Integer id) {
    return "线程池:  " + Thread.currentThread().getName() + "  8001系统繁忙或者运行报错，请稍后再试,id:  " + id + "\t" + "o(╥﹏╥)o";
}

一旦调用服务方法失败并抛出了错误信息后，会自动调用@HystrixCommand标注好的fallbackMethod调用类中指定的指定方法。

@HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "3000")设置了服务自身的上线时间为3s，超过3s将会调用paymentInfoTimeOutHandler方法。

主启动类加上激活注解：

@SpringBootApplication
@EnableEurekaClient
@EnableCircuitBreaker
public class PaymentHystrixMain8001 {
    public static void main(String[] args) {
        SpringApplication.run(PaymentHystrixMain8001.class, args);
    }
}

访问：http://localhost:8001/payment/hystrix/timeout/1接口进行测试，3s以后页面返回fallbackMethod设置方法的结果。既然超时情况能够进行兜底处理，那异常状况呢？

咱们不妨打开int age = 10/0;的注释，此时会抛出一个算数异常，进行测试，一旦抛出异常，也会fallback。

消费端服务降级

cloud-consumer-feign-hystrix-order80：为消费者端也配置服务降级。首先配置yml，开启feign.hystrix.enabled。

server:
  port: 80

eureka:
  client:
    register-with-eureka: false
    service-url:
      defaultZone: http://eureka7001.com:7001/eureka/

feign:
  hystrix:
    enabled: true

使用@HystrixCommand注解设置服务降级处理方法，和等待上限时间属性。

@RestController
@Slf4j
public class OrderHystirxController {
    @Resource
    private PaymentHystrixService paymentHystrixService;

    @GetMapping("/consumer/payment/hystrix/timeout/{id}")
    @HystrixCommand(fallbackMethod = "paymentTimeOutFallbackMethod", commandProperties = {
            @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "1500")
    })
    public String paymentInfoTimeOut(@PathVariable("id") Integer id) {
        //int age = 10 / 0;
        return paymentHystrixService.paymentInfTimeOut(id);
    }

    public String paymentTimeOutFallbackMethod(@PathVariable("id") Integer id) {
        return "我是消费者80,对方支付系统繁忙请10秒钟后再试或者本身运行出错请检查本身,o(╥﹏╥)o";
    }

}

在主启动类上加上注解：

@SpringBootApplication
@EnableFeignClients
@EnableHystrix
public class OrderHystrixMain80 {
    public static void main(String[] args) {
        SpringApplication.run(OrderHystrixMain80.class, args);
    }
}

这时候的情景是：

客户端的降级策略为：将要调用服务端接口，且但愿1.5s之内就能获得回应，不然就会执行paymentTimeOutFallbackMethod方法。
服务端的降级策略为：服务若是超过5s中才执行fallbackMethod中的方法。

暴露的问题

每一个业务方法都须要一个兜底方法，代码膨胀！
处理方法和业务逻辑混叠在一块儿，混乱！

定义默认的fallbackMethod

咱们应当按照全局异常处理的思想，定义一套全局通用的处理降级方法，再此基础之上，再分别针对不一样的业务，进行定制降级。

@RestController
@Slf4j
@DefaultProperties(defaultFallback = "paymentGlobalFallbackMethod")
public class OrderHystirxController {
    @Resource
    private PaymentHystrixService paymentHystrixService;

    @HystrixCommand
    @GetMapping("/consumer/payment/hystrix/timeout/{id}")
    public String paymentInfoTimeOut(@PathVariable("id") Integer id) {
        //int age = 10 / 0;
        return paymentHystrixService.paymentInfTimeOut(id);
    }

    public String paymentTimeOutFallbackMethod(@PathVariable("id") Integer id) {
        return "我是消费者80,对方支付系统繁忙请10秒钟后再试或者本身运行出错请检查本身,o(╥﹏╥)o";
    }

    /**
     * 下面是全局fallback方法
     */
    public String paymentGlobalFallbackMethod() {
        return "Global异常处理信息，请稍后再试，/(ㄒoㄒ)/~~";
    }
}

在Controller层上加上@DefaultProperties(defaultFallback = "paymentGlobalFallbackMethod")。定义默认的fallback处理方法。
若是@HystrixCommand不指定fallbackMethod，将会调用defaultFallback 。

The @HystrixCommand is provided by a Netflix contrib library called “javanica”. Spring Cloud automatically wraps Spring beans with that annotation in a proxy that is connected to the Hystrix circuit breaker. The circuit breaker calculates when to open and close the circuit and what to do in case of a failure.

To configure the @HystrixCommand you can use the commandProperties attribute with a list of @HystrixProperty annotations.

解决Controller层耦合

咱们首先须要知道，咱们全部须要调用服务端的接口的方法，其实都定义在FeignClient中。那么，咱们能够@FeignClient注解中经过fallback指定同一处理降级的服务：PaymentFallbackService，咱们让这个service实现FeignClient，针对每一个方法提供不一样的降级策略。

首先确保开启：

feign:
  hystrix:
    enabled: true

@Component
@FeignClient(value = "cloud-provider-hystrix-payment",fallback = PaymentFallbackService.class)
public interface PaymentHystrixService {
    @GetMapping("/payment/hystrix/ok/{id}")
    String paymentInfOk(@PathVariable("id") Integer id);

    @GetMapping("/payment/hystrix/timeout/{id}")
    String paymentInfTimeOut(@PathVariable("id") Integer id);
}

@Component
public class PaymentFallbackService implements PaymentHystrixService {

    @Override
    public String paymentInfOk(Integer id) {
        return "PaymentFallbackService fall back-paymentInfo_OK ,o(╥﹏╥)o";
    }

    @Override
    public String paymentInfTimeOut(Integer id) {
        return "PaymentFallbackService fall back-paymentInfo_TimeOut ,o(╥﹏╥)o";
    }
}

如何测试

前后启动7001，8001。
访问：http://localhost/consumer/payment/hystrix/ok/1结果正常。
此时将8001强制关闭，此时客户端要想调用服务端必然调用失败，这时客户端的服务降级就会效果显现。

哪些状况会发出降级

程序运行异常
超时
服务熔断触发服务降级
线程池/信号量打满也会致使服务降级

Hystrix演示-服务熔断

熔断机制概述

熔断机制是应对雪崩效应的一种微服务链路保护机制，当扇出链路的某个微服务出错或不可用或响应时间太长时，会进行服务的降级，进而熔断该节点微服务的调用，快速返回错误的响应信息。当检测到该节点微服务调用响应正常后，恢复调用链路。

SpringCloud中能够经过Hystrix实现熔断，Hystrix会监控微服务之间调用的情况，当失败的调用到必定阈值，缺省是5秒内20次调用失败，就会启动熔断机制。

https://martinfowler.com/bliki/CircuitBreaker.html

熔断演示，配置参数

在Service层配置熔断策略：

//=====服务熔断 10s以内 10次请求有6次失败 就会开启断路器
    @HystrixCommand(fallbackMethod = "paymentCircuitBreaker_fallback", commandProperties = {
            @HystrixProperty(name = "circuitBreaker.enabled", value = "true"),// 是否开启断路器
            @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold", value = "10"),// 请求次数
            @HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds", value = "10000"), // 时间窗口期
            @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage", value = "60"),// 失败率达到多少后跳闸
    })
    public String paymentCircuitBreaker(Integer id) {
        if (id < 0) {
            throw new RuntimeException("******id 不能负数");
        }
        String serialNumber = IdUtil.simpleUUID();

        return Thread.currentThread().getName() + "\t" + "调用成功，流水号: " + serialNumber;
    }

@HystrixProperty中的配置项定义在：com.netflix.hystrix.HystrixCommandProperties

更加详细的配置介绍：https://github.com/Netflix/Hystrix/wiki/Configuration

在Controller层调用：

//====服务熔断
    @GetMapping("/payment/circuit/{id}")
    public String paymentCircuitBreaker(@PathVariable("id") Integer id) {
        String result = paymentService.paymentCircuitBreaker(id);
        log.info("****result: " + result);
        return result;
    }

测试

熔断类型

熔断打开Open：请求再也不进行调用当前服务，内部设置时钟通常为MTTR【平均故障处理时间】，当打开时长达到所设始终则进入半熔断状态。
熔断关闭Closed：熔断关闭不会对服务进行熔断。
熔断半开Half Open：部分请求根据规则调用当前服务，若是请求成功且符合规则则认为当前服务恢复正常，关闭熔断。

熔断啥时候起做用

涉及到断路器的三个重要参数：快照时间窗、请求总数阀值、错误百分比阀值。

快照时间窗sleepWindowInMilliseconds：断路器肯定是否打开须要统计一些请求和错误数据，而统计的时间范围就是快照时间窗，默认为最近的10秒。
请求总数阀值requestVolumeThreshold：在快照时间窗内，必须知足请求总数阀值才有资格熔断。默认为20，意味着在10秒内若是该hystrix命令的调用次数不足20次，即便全部的请求都超时或其它缘由失败，断路器都不会打开。
错误百分比阀值errorThresholdPercentage：当请求总数在快照时间窗内超过了阀值，好比发生了30次调用，若是在这30次调用中，有超过15次发生了超时异常，也就是超过50%的错误百分比（默认错误阀值50%），断路器会打开。

断路器开启或关闭的条件

当知足必定阈值时（默认10秒内超过20个请求次数）
当失败率达到必定时（默认10秒内超过50%的请求失败）
到达以上阈值，断路器将开启
当开启时，全部请求将不会转发
一段时间后（默认是5秒），这个时候断路器是半开状态，会让其中一个进行转发。若是成功，断路器会关闭，若失败，继续开启。重复4~5

断路器打开以后，再有请求调用的时候，将不会再调用主逻辑，而是直接调用降级fallback，经过断路器，实现了自动地发现错误并将降级逻辑切换为主逻辑，减小响应延迟的效果。

原来的逻辑如何恢复？

当断路器打开，对主逻辑进行熔断以后，hystrix会启动一个休眠时间窗，在这个时间窗内，降级逻辑临时的成为主逻辑，当休眠时间窗到期，断路器将进入半开状态，释放一次请求到原来的主逻辑上，若是这次请求正常返回，那么断路器将闭合，主逻辑恢复，若是此次请求依然有问题，断路器继续进入打开状态，休眠时间窗从新计时。

Hystrix工做流程总结

构建 HystrixCommand【依赖的服务返回单个的结果】 or HystrixObservableCommand【依赖的服务返回多个操做结果】对象【1】。
执行命令，如下四种方法中的一种【前两种方法仅适用于简单的HystrixCommand对象，而不适用于HystrixObservableCommand】【2】：
1. execute()，同步，从依赖的服务返回一个单一的响应【或在发生错误的时候抛出异常】。
2. queue()，返回Future对象，包含了服务执行结束时要返回的单一结果对象。
3. observe()：返回Observable对象。
4. toObservable()：返回Observable对象，也表明了操做的多个结果。
```
K             value   = command.execute();
Future<K>     fValue  = command.queue();
Observable<K> ohValue = command.observe();         //hot observable
Observable<K> ocValue = command.toObservable();    //cold observable
```
检查缓存【3】，若当前命令的请求缓存功能是被启用的，而且该命令缓存命中，那么这个缓存的响应将当即以Observable形式返回。
检查断路器是不是打开状态【4】，若是断路器打开，则Hystrix不会执行命令，而是处理fallback逻辑【8】，不然检查是否有可用资源来执行命令【5】。
线程池/请求队列/信号量是否已满【5】，若是命令依赖服务的专有线程池和请求队列，或信号量已经被占满，那么Hystrix也不会执行命令，而是转到第【8】步。
Hystrix会根据咱们编写的方法来决定采起什么样的方式去请求依赖服务【6】。
1. HystrixCommand.run()：返回一个单一的结果，或者抛出异常。
2. HystrixObservableCommand.constract()：返回一个Observable对象来发送多个结果或经过onError发送错误通知。
Hystrix向断路器报告成功、失败、拒绝和超时等信息，断路器经过维护一组计数器来统计这些数据，经过这些数据来决定是否要打开断路器【7】。
当命令执行失败时，Hystrix会进入fallback尝试回退处理，咱们一般称为：服务降级。可以引发服务降级处理的状况：
1. 熔断器打开。【4】
2. 当前命令的线程池、请求队列、信号量被占满的时候。【5】
3. HystrixCommand.run()或HystrixObservableCommand.constract()抛出异常时。【6】
当Hystrix命令执行成功以后，它会将处理结果直接返回或是以Observable的形式返回。

Hystrix图形化DashBoard监控实战

引入依赖

<dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-netflix-hystrix-dashboard</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-actuator</artifactId>
        </dependency>

设置监听9001端口

server:
  port: 9001

添加注解@EnableHystrixDashboard

@SpringBootApplication
@EnableHystrixDashboard
public class HystrixDashboardMain9001 {
    public static void main(String[] args) {
        SpringApplication.run(HystrixDashboardMain9001.class, args);
    }
}

测试

访问：http://localhost:9001/hystrix，出现如下界面说明配置成功：

实战监控8001服务熔断

保证8001的依赖中存在spring-boot-starter-actuator。

<dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-actuator</artifactId>
        </dependency>

特殊配置

/**
     * 此配置是为了服务监控而配置，与服务容错自己无关，spring cloud升级后的坑
     * ServletRegistrationBean由于springboot的默认路径不是"/hystrix.stream"，
     * 只要在本身的项目里配置上下面的servlet就能够了
     */
    @Bean
    public ServletRegistrationBean<HystrixMetricsStreamServlet> getServlet() {
        HystrixMetricsStreamServlet streamServlet = new HystrixMetricsStreamServlet();
        ServletRegistrationBean<HystrixMetricsStreamServlet> registrationBean = new ServletRegistrationBean<>(streamServlet);
        registrationBean.setLoadOnStartup(1);
        registrationBean.addUrlMappings("/hystrix.stream"); //访问路径
        registrationBean.setName("HystrixMetricsStreamServlet");
        return registrationBean;
    }

这时，在Hystrix界面监控框输入监控的url：http://localhost:8001/hystrix.stream，可能会出现错误：

Origin parameter: http://localhost:8001/hystrix.stream is not in the allowed list of proxy host names.  If it should be allowed add it to hystrix.dashboard.proxyStreamAllowList.

提醒咱们设置hystrix.dashboard.proxyStreamAllowList，在yml中设置呗：

server:
  port: 9001

hystrix:
  dashboard:
    proxy-stream-allow-list:
      - "localhost"

启动8001，按照咱们测试服务熔断的流程，监控正常运行的效果：

请求示意图的圆圈越大，表示请求量越多。
曲线表示过去2分钟的请求变化率。
Host、Cluster表示每秒的并发请求数。
Hosts表示节点个数，只有一个示例，则为1。
ThreadPools表示监控Hystrix的线程状态。

源码下载

本系列文章为《尚硅谷SpringCloud教程》的学习笔记【版本稍微有些不一样，后续遇到bug再作相关说明】，主要作一个长期的记录，为之后学习的同窗提供示例，代码同步更新到Gitee：https://gitee.com/tqbx/spring-cloud-learning，而且以标签的形式详细区分每一个步骤，这个系列文章也会同步更新。