服务调用端熔断-Hystrix

1.为何须要熔断器

分布式系统环境下,服务间相似依赖很是常见,一个业务调用一般依赖多个基础服务。以下图,对于同步调用,当库存服务不可用时,商品服务请求线程被阻塞,当有大批量请求调用库存服务时,最终可能致使整个商品服务资源耗尽,没法继续对外提供服务。而且这种不可用可能沿请求调用链向上传递,这种现象被称为雪崩效应。、node

 

雪崩效应常见场景

  • 硬件故障:如服务器宕机,机房断电,光纤被挖断等。
  • 流量激增:如异常流量,重试加大流量等。
  • 缓存穿透:通常发生在应用重启,全部缓存失效时,以及短期内大量缓存失效时。大量的缓存不命中,使请求直击后端服务,形成服务提供者超负荷运行,引发服务不可用。
  • 程序BUG:如程序逻辑致使内存泄漏,JVM长时间FullGC等。
  • 同步等待:服务间采用同步调用模式,同步等待形成的资源耗尽。

雪崩效应应对策略

针对形成雪崩效应的不一样场景,可使用不一样的应对策略,没有一种通用全部场景的策略,参考以下:git

  • 硬件故障:多机房容灾、异地多活等。
  • 流量激增:服务自动扩容、流量控制(限流、关闭重试)等。
  • 缓存穿透:缓存预加载、缓存异步加载等。
  • 程序BUG:修改程序bug、及时释放资源等。
  • 同步等待:资源隔离、MQ解耦、不可用服务调用快速失败等。资源隔离一般指不一样服务调用采用不一样的线程池;不可用服务调用快速失败通常经过熔断器模式结合超时机制实现。

综上所述,若是一个应用不能对来自依赖的故障进行隔离,那该应用自己就处在被拖垮的风险中。 所以,为了构建稳定、可靠的分布式系统,咱们的服务应当具备自我保护能力,当依赖服务不可用时,当前服务启动自我保护功能,从而避免发生雪崩效应。本文将重点介绍使用Hystrix解决同步等待的雪崩问题。github

2.什么是熔断器

熔断器的原理很简单,如同电力过载保护器。它能够实现快速失败,若是它在一段时间内侦测到许多相似的错误,会强迫其之后的多个调用快速失败,再也不访问远程服务器,从而防止应用程序不断地尝试执行可能会失败的操做,使得应用程序继续执行而不用等待修正错误,或者浪费CPU时间去等到长时间的超时产生。熔断器也可使应用程序可以诊断错误是否已经修正,若是已经修正,应用程序会再次尝试调用操做。spring

熔断器模式就像是那些容易致使错误的操做的一种代理。这种代理可以记录最近调用发生错误的次数,而后决定使用容许操做继续,或者当即返回错误。 熔断器开关相互转换的逻辑以下图:后端

熔断器就是保护服务高可用的最后一道防线。浏览器

3.什么是Hystrix

Netflix建立了一个名为Hystrix的库,实现了断路器的模式。“断路器”自己是一种开关装置,当某个服务单元发生故障以后,经过断路器的故障监控(相似熔断保险丝),向调用方返回一个符合预期的、可处理的备选响应(FallBack),而不是长时间的等待或者抛出调用方没法处理的异常,这样就保证了服务调用方的线程不会被长时间、没必要要地占用,从而避免了故障在分布式系统中的蔓延,乃至雪崩。缓存

 

固然,在请求失败频率较低的状况下,Hystrix仍是会直接把故障返回给客户端。只有当失败次数达到阈值(默认在20秒内失败5次)时,断路器打开而且不进行后续通讯,而是直接返回备选响应。固然,Hystrix的备选响应也是能够由开发者定制的。服务器

 

除了隔离依赖服务的调用之外,Hystrix还提供了准实时的调用监控(Hystrix Dashboard),Hystrix会持续地记录全部经过Hystrix发起的请求的执行信息,并以统计报表和图形的形式展现给用户,包括每秒执行多少请求多少成功,多少失败等。Netflix经过hystrix-metrics-event-stream项目实现了对以上指标的监控。Spring Cloud也提供了Hystrix Dashboard的整合,对监控内容转化成可视化界面,Hystrix Dashboard Wiki上详细说明了图上每一个指标的含义。app

4.Hystrix特性

1.断路器机制运维

断路器很好理解, 当Hystrix Command请求后端服务失败数量超过必定比例(默认50%), 断路器会切换到开路状态(Open). 这时全部请求会直接失败而不会发送到后端服务. 断路器保持在开路状态一段时间后(默认5秒), 自动切换到半开路状态(HALF-OPEN). 这时会判断下一次请求的返回状况, 若是请求成功, 断路器切回闭路状态(CLOSED), 不然从新切换到开路状态(OPEN). Hystrix的断路器就像咱们家庭电路中的保险丝, 一旦后端服务不可用, 断路器会直接切断请求链, 避免发送大量无效请求影响系统吞吐量, 而且断路器有自我检测并恢复的能力.

2.Fallback

Fallback至关因而降级操做. 对于查询操做, 咱们能够实现一个fallback方法, 当请求后端服务出现异常的时候, 可使用fallback方法返回的值. fallback方法的返回值通常是设置的默认值或者来自缓存.

3.资源隔离

在Hystrix中, 主要经过线程池来实现资源隔离. 一般在使用的时候咱们会根据调用的远程服务划分出多个线程池. 例如调用产品服务的Command放入A线程池, 调用帐户服务的Command放入B线程池. 这样作的主要优势是运行环境被隔离开了. 这样就算调用服务的代码存在bug或者因为其余缘由致使本身所在线程池被耗尽时, 不会对系统的其余服务形成影响. 可是带来的代价就是维护多个线程池会对系统带来额外的性能开销. 若是是对性能有严格要求并且确信本身调用服务的客户端代码不会出问题的话, 可使用Hystrix的信号模式(Semaphores)来隔离资源.

5.如何使用Hystrix

1、Feign Hystrix

由于熔断只是做用在服务调用这一端,所以咱们根据上一篇的示例代码只须要改动spring-cloud-consumer项目相关代码就能够。由于,Feign中已经依赖了Hystrix因此在maven配置上不用作任何改动。

一、配置文件

application.properties添加这一条:

feign.hystrix.enabled=true

二、建立回调类

建立HelloRemoteHystrix类继承与HelloRemote实现回调的方法

@Component
public class HelloRemoteHystrix implements HelloRemote{

    @Override
    public String hello(@RequestParam(value = "name") String name) {
        return "hello" +name+", this messge send failed ";
    }
}

三、添加fallback属性

HelloRemote类添加指定fallback类,在服务熔断的时候返回fallback类中的内容。

@FeignClient(name= "spring-cloud-producer",fallback = HelloRemoteHystrix.class)
public interface HelloRemote {

    @RequestMapping(value = "/hello")
    public String hello(@RequestParam(value = "name") String name);

}

改动点就这点,很简单吧。

四、测试

那咱们就来测试一下看看效果吧。

依次启动spring-cloud-eureka、spring-cloud-producer、spring-cloud-consumer三个项目。

浏览器中输入:http://localhost:9001/hello/neo

返回:hello neo,this is first messge

说明加入熔断相关信息后,不影响正常的访问。接下来咱们手动中止spring-cloud-producer项目再次测试:

浏览器中输入:http://localhost:9001/hello/neo

返回:hello neo, this messge send failed

根据返回结果说明熔断成功。

2、Hystrix Dashboard

咱们在熔断示例项目spring-cloud-consumer-hystrix的基础上更改,从新命名为:spring-cloud-consumer-hystrix-dashboard。

一、添加依赖

<dependency>
	<groupId>org.springframework.cloud</groupId>
	<artifactId>spring-cloud-starter-hystrix</artifactId>
</dependency>
<dependency>
	<groupId>org.springframework.cloud</groupId>
	<artifactId>spring-cloud-starter-hystrix-dashboard</artifactId>
</dependency>
<dependency>
	<groupId>org.springframework.boot</groupId>
	<artifactId>spring-boot-starter-actuator</artifactId>
</dependency>

这三个包必须添加

二、启动类

启动类添加启用Hystrix Dashboard和熔断器

@SpringBootApplication
@EnableDiscoveryClient
@EnableFeignClients
@EnableHystrixDashboard
@EnableCircuitBreaker
public class ConsumerApplication {

	public static void main(String[] args) {
		SpringApplication.run(ConsumerApplication.class, args);
	}
}

三、测试

启动工程后访问 http://localhost:9001/hystrix,将会看到以下界面:

图中会有一些提示:

Cluster via Turbine (default cluster): http://turbine-hostname:port/turbine.stream 
Cluster via Turbine (custom cluster): http://turbine-hostname:port/turbine.stream?cluster=[clusterName]
Single Hystrix App: http://hystrix-app:port/hystrix.stream

大概意思就是若是查看默认集群使用第一个url,查看指定集群使用第二个url,单个应用的监控使用最后一个,咱们暂时只演示单个应用的因此在输入框中输入: http://localhost:9001/hystrix.stream ,输入以后点击 monitor,进入页面。

若是没有请求会先显示Loading ...,访问http://localhost:9001/hystrix.stream 也会不断的显示ping。

请求服务http://localhost:9001/hello/neo,就能够看到监控的效果了,首先访问http://localhost:9001/hystrix.stream,显示以下:

ping: 

data: {"type":...}

data: {"type":...}

说明已经返回了监控的各项结果

到监控页面就会显示以下图:

其实就是http://localhost:9001/hystrix.stream返回结果的图形化显示,Hystrix Dashboard Wiki上详细说明了图上每一个指标的含义,以下图:

到此单个应用的熔断监控已经完成。

3、Turbine

在复杂的分布式系统中,相同服务的节点常常须要部署上百甚至上千个,不少时候,运维人员但愿可以把相同服务的节点状态以一个总体集群的形式展示出来,这样能够更好的把握整个系统的状态。 为此,Netflix提供了一个开源项目(Turbine)来提供把多个hystrix.stream的内容聚合为一个数据源供Dashboard展现。

一、添加依赖

<dependencies>
	<dependency>
		<groupId>org.springframework.cloud</groupId>
		<artifactId>spring-cloud-starter-turbine</artifactId>
	</dependency>
	<dependency>
		<groupId>org.springframework.cloud</groupId>
		<artifactId>spring-cloud-netflix-turbine</artifactId>
	</dependency>
	<dependency>
		<groupId>org.springframework.boot</groupId>
		<artifactId>spring-boot-starter-actuator</artifactId>
	</dependency>
	<dependency>
		<groupId>org.springframework.cloud</groupId>
		<artifactId>spring-cloud-starter-hystrix-dashboard</artifactId>
	</dependency>
</dependencies>

二、配置文件

spring.application.name=hystrix-dashboard-turbine
server.port=8001
turbine.appConfig=node01,node02
turbine.aggregator.clusterConfig= default
turbine.clusterNameExpression= new String("default")

eureka.client.serviceUrl.defaultZone=http://localhost:8000/eureka/
  • turbine.appConfig :配置Eureka中的serviceId列表,代表监控哪些服务
  • turbine.aggregator.clusterConfig :指定聚合哪些集群,多个使用”,”分割,默认为default。可以使用http://.../turbine.stream?cluster={clusterConfig之一}访问
  • turbine.clusterNameExpression : 1. clusterNameExpression指定集群名称,默认表达式appName;此时:turbine.aggregator.clusterConfig须要配置想要监控的应用名称;2. 当clusterNameExpression: default时,turbine.aggregator.clusterConfig能够不写,由于默认就是default;3. 当clusterNameExpression: metadata[‘cluster’]时,假设想要监控的应用配置了eureka.instance.metadata-map.cluster: ABC,则须要配置,同时turbine.aggregator.clusterConfig: ABC

三、启动类

启动类添加@EnableTurbine,激活对Turbine的支持

@SpringBootApplication
@EnableHystrixDashboard
@EnableTurbine
public class DashboardApplication {

	public static void main(String[] args) {
		SpringApplication.run(DashboardApplication.class, args);
	}

}

到此Turbine(hystrix-dashboard-turbine)配置完成

四、测试

在示例项目spring-cloud-consumer-hystrix基础上修改成两个服务的调用者spring-cloud-consumer-node1和spring-cloud-consumer-node2

spring-cloud-consumer-node1项目改动以下: application.properties文件内容

spring.application.name=node01
server.port=9001
feign.hystrix.enabled=true

eureka.client.serviceUrl.defaultZone=http://localhost:8000/eureka/

spring-cloud-consumer-node2项目改动以下: application.properties文件内容

spring.application.name=node02
server.port=9002
feign.hystrix.enabled=true

eureka.client.serviceUrl.defaultZone=http://localhost:8000/eureka/

HelloRemote类修改:

@FeignClient(name= "spring-cloud-producer2", fallback = HelloRemoteHystrix.class)
public interface HelloRemote {

    @RequestMapping(value = "/hello")
    public String hello2(@RequestParam(value = "name") String name);

}

对应的HelloRemoteHystrixConsumerController类跟随修改,具体查看代码

修改完毕后,依次启动spring-cloud-eureka、spring-cloud-consumer-node一、spring-cloud-consumer-node一、hystrix-dashboard-turbine(Turbine)

打开eureka后台能够看到注册了三个服务:

访问 http://localhost:8001/turbine.stream

返回:

: ping
data: {"reportingHostsLast10Seconds":1,"name":"meta","type":"meta","timestamp":1494921985839}

而且会不断刷新以获取实时的监控数据,说明和单个的监控相似,返回监控项目的信息。进行图形化监控查看,输入:http://localhost:8001/hystrix,返回酷酷的小熊界面,输入: http://localhost:8001/turbine.stream,而后点击 Monitor Stream ,能够看到出现了俩个监控列表