「如何设计」一套微服务高可用方案

时间 2019-12-05

标签如何设计一套微服可用方案繁體版

原文原文链接

「如何设计」：mysql

「如何设计」具有幂等性的服务
 「如何设计」微服务中高可用的分布式锁
 「如何设计」一套微服务高可用方案nginx

什么是高可用

在定义什么是高可用，能够先定义下什么是不可用，一个网站的内容最终呈如今用户面前须要通过若干个环节，而其中只要任何一个环节出现了故障，均可能致使网站页面不可访问，这个也就是网站不可用的状况。redis

参考维基百科，看看维基怎么定义高可用算法

系统无中断地执行其功能的能力，表明系统的可用性成都，是进行系统设计时的准则之一。sql

这个难点或是重点在于“无中断”，要作到 7 x 24 小时任何人任什么时候间任何地点去访问任务服务都能获得预期的结果。docker

为何须要高可用

刚说到要提供一套无中断提供预计服务的系统，须要硬件，软件相结合，可是咱们的硬件老是会出故障，软件也总会有bug，硬件会慢慢老化，软件会愈来愈复杂和庞大，除了硬件软件在本质上没法作到“无中断”，外部环境也可能致使服务的中断，例如断电，地震，火灾，光纤被挖掘机挖断，这些影响的程度可能更大。数据库

高可用的评价纬度

传统高可用评估方式

在业界有一套比较出名的评定网站可用性的指标，经常使用N个9来量化可用性，能够直接映射到网站正常运行时间的百分比上缓存

描述	N个9	可用性级别	年度停机时间
基本可用	2个9	99%	87.6小时
较高可用	3个9	99%	8.8小时
具有故障自动恢复能力可用	4个9	99.99%	53分钟
极高可用	5个9	99.999%	5分钟

以前就任的一家大型互联网公司也是按照这个指标去界定可用性，不过在执行的过程当中也碰到了一些问题，例如，有一些服务的升级或数据迁移明明能够在深夜停机或停服务进行，然而考虑到之后的报告要显示出咱们的系统达到了多少个9的高可用，而放弃停服务这种简单的解决方案，例如停机2个小时，就永远也达不到4个9。然而在一些高并发的场合，例如在秒杀或拼团，虽然服务中止了几分钟，可是这个对整个公司业务的影响多是很是重大的，分分钟丢失的订单多是一个庞大的数量。安全

很明显若是只是单单靠停机或不可用的时间来做为高可用评价纬度也是很是的不靠谱，设置会让技术人员为了追求四个或五个9而采用一些更复杂但不必的方式。bash

咱们须要一种对高可用更为科学的评估方式

科学高可用评估方式

咱们在深夜停机一个小时和白天高峰期停机一个小时出现的影响是彻底不同的，这个也是须要根据业务而定，通常来讲 To C 业务领域形成不可用是对于用户请求数的影响，换算成公式

一段时间的停机影响请求量占比 = 停机时间影响请求量 / 总的请求量
复制代码

这个纬度是从用户影响的纬度去进行评估，能够更加结合业务的纬度对业务形成多大影响去进行评估。固然作好这个评估的前提还须要对咱们的服务进行分级，只有结合服务分级才能更好的进行评估。

微服务高可用设计手段

高可用是一个比较复杂的命题，基本上在全部的处理中都会涉及到高可用，全部在设计高可用方案也涉及到了方方面面，这中间将会出现的细节是多种多样的，因此咱们须要对这样一个微服务高可用方案进行一个顶层的设计。

服务冗余 —— 无状态化

服务冗余

每个访问可能都会有多个服务组成而成，每一个机器每一个服务均可能出现问题，因此第一个考虑到的就是每一个服务必须不止一份能够是多份，所谓多份一致的服务就是服务的冗余，这里说的服务泛指了机器的服务，容器的服务，还有微服务自己的服务。

在机器服务层面须要考虑，各个机器间的冗余是否有在物理空间进行隔离冗余，例如是否全部机器是否有分别部署在不一样机房，若是在同一个机房是否作到了部署在不一样的机柜，若是是docker容器是否部署在分别不一样的物理机上面。采起的策略其实也仍是根据服务的业务而定，因此须要对服务进行分级评分，从而采起不一样的策略，不一样的策略安全程度不一样，伴随这的成本也是不一样，安全等级更高的服务可能还不止考虑不一样机房，还须要把各个机房所处的区域考虑进行，例如，两个机房不要处在同一个地震带上等等

无状态化

服务的冗余会要求咱们能够随时对服务进行扩容或者缩容，有可能咱们会从2台机器变成3台机器，想要对服务进行随时随地的扩缩容，就要求咱们的服务是一个无状态化，所谓无状态化就是每一个服务的服务内容和数据都是一致的。

例如，从咱们的微服务架构来看，咱们总共分水平划分了好几个层，正由于咱们每一个层都作到了无状态，因此在这个水平架构的扩张是很是的简单。

假设，咱们须要对网关进行扩容，咱们只须要增长服务就能够，怎么作到服务无状态呢，举个例子，在网关这一层，咱们须要作鉴权的操做，须要把用户的session进行存储，这时候其实有几种方案：

每一个网关单独存一份，在上层经过用户的IP一致性哈希来选择网关，这样一个用户就只会落到一台网关上。

这实际上不Ok，若是这台网关宕机了，那么这个用户的session也会丢失

每一个网关都存全部的session数据，当一个网关接收到一个session，就会把这个session同步到全部的网关，那么不管访问到那一台网关均可以获取到session

这实际上也不Ok，同步session是须要时间，若是咱们追求的是CAP中的AP模型，那么就会可能出现，网关还未完成同步，用户就已经请求到无同步的网关。

网关不保存任何的session数据，不提供会形成一致性的服务，将不一致的数据进行几种存储，借助更加擅长数据同步的中间件来完成。

这个是目前主流的方案，服务自己尽量提供逻辑的服务，将数据的一致性保证集中式处理，这样就能够把“状态”抽取出来，让网关保持一个“无状态”

这里仅仅是举了网关的例子，在微服务只基本全部的服务，都应该按照这种思路去作，若是服务中有状态，就应该把状态抽取出来，让更加擅长处理数据的组件来处理，而不是在微服务中去兼容有数据的状态。

负载均衡 —— 幂等设计

广义负载均衡

相信负载均衡这个话题基本已经深刻每一个作微服务开发或设计者的人心，从狭义上来讲，负载均衡的实现有硬件和软件，硬件有F5，A10等机器，软件有LVS，nginx，HAProxy等等，负载均衡的算法有 random ， RoundRobin ， ConsistentHash等等。

上面说的基本能够属于狭义上的负载均衡，这里更想说的是广义上的负载均衡

广义上的负载均衡包含了

服务的发现
故障的发现
故障的摘除
请求自动重试，请求自动转移
故障恢复，并从新发现

接下来看看一个网关对业务逻辑层的调用怎么去实现负载均衡

网关经过注册中心发现了可调用列表，按照必定的负载均衡算法对【业务逻辑1】进行调用
【业务逻辑1】调用失败，（多是重试几回失败）
对【业务逻辑1】进行摘除，也就是对其进行熔断
把刚刚对【业务逻辑1】没有完成的调用，进行调用转移，转移到【业务逻辑2】上进行调用
当【业务逻辑1】的服务恢复时，须得进行重试，当重试达到必定标准后，将【业务逻辑1】从新添加回去调用列表

在网关这一种的负载均衡大部分是由注册中心进行实现

在使用ZK做为注册中心时，故障的发现是由Zk去进行发现，业务逻辑层经过watch的心跳机制将本身注册到zk上，网关对zk进行订阅就能够知道有多少能够调用的列表。当业务逻辑层在重启或者被关闭时就会跟zk断了心跳，zk会更新可调用列表。

使用zk做为负载均衡的协调器，最大的问题是zk对于服务是否可用是基于pingpong的方式，只要服务心跳存在，zk就认为服务是处在于可用状态，可是服务若是处在于假死的状态，zk是无从得知的。这个时候，业务逻辑服务是否真正可用只可以由网关知道。

幂等设计

为什么会牵出幂等设计的问题，主要是由于负载均衡的failover策略，就是对失败的服务会进行重试，通常来讲，若是是读操做的服务，重复执行也不会出问题，但想象一下，若是是一个建立订单减库存的操做，第一次调用也【业务逻辑1】超时，再从新调用了【业务逻辑2】，这个时候咱们都不能确认超时调用的【业务逻辑1】是否真的被调用，有可能根本就调用不成功，有可能已经调用成功可是由于某些缘由返回超时而已，因此，很大程度这个接口会被调用2次。若是咱们没有保证幂等性，就有可能一个订单致使了减小2次的库存。

所谓的幂等性，就是得保证在同一个业务中，一个接口被调用了屡次，其致使的结果都是同样的。

怎么作幂等性设计：看下《「如何设计」具有幂等性的服务》

异步化/柔性化

异步化

在每一次调用，时间越长存在超时的风险就越大，逻辑越复杂执行的步骤越多存在失败的风险也就越大，若是在业务容许的状况下，用户调用只给用户必需要的结果，而不是须要同步的结果能够放在另外的地方异步去操做，这就减小了超时的风险也把复杂业务进行拆分减低复杂度。

固然异步化的好处是很是多，例如削封解耦等等，这里只是从可用的角度出发。

异步化大体有这三种的实现方式：

服务端接收到请求后，建立新的线程处理业务逻辑，服务端先回应答给客户端

服务端接收到请求后，服务端先回应答给客户端，再继续处理业务逻辑

服务端接收到请求后，服务端把信息保存在消息队列或者数据库，回应答给客户端，服务端业务处理进程再从消息队列或者数据库上读取信息处理业务逻辑

柔性化

什么是柔性化，想象一个场景，咱们的系统会给每一个下单的用户增长他们下单金额对应的积分，当一个用户下单完毕后，咱们给他增长积分的服务出现了问题，这个时候，咱们是要取消掉这个订单仍是先让订单经过，积分的问题经过从新或者报警来处理呢？

所谓的柔性化，就是在咱们业务中容许的状况下，作不到给予用户百分百可用的经过降级的手段给到用户尽量多的服务，而不是非得每次都交出去要么100分或0分的答卷。

怎么去作柔性化，更多实际上是对业务的理解和判断，柔性化更可能是一种思惟，须要对业务场景有深刻的了解。

在电商订单的场景中，下单，扣库存，支付是必定要执行的步骤，若是失败则订单失败，可是加积分，发货，售后是能够柔性处理，就算出错也能够经过日志报警让人工去检查，不必为加积分损失整个下单的可用性

服务限流降级熔断

先来说讲微服务中限流/熔断的目的是什么，微服务后，系统分布式部署，系统之间经过rpc框架通讯，整个系统发生故障的几率随着系统规模的增加而增加，一个小的故障通过链路的传递放大，有可能会形成更大的故障。

限流跟高可用的关系是什么，假定咱们的系统最多只能承受500我的的并发访问，但整个时候忽然增长到1000我的进来，一会儿就把整个系统给压垮了，原本还有500我的能享受到咱们系统的服务，忽然间变成了全部人都没法获得服务，与其让1000人都不法获得服务，不如就让500我的获得服务，拒绝掉另外500我的。限流是对访问的隔离，是保证了部门系统承受范围内用户的可用性。

熔断跟高可用的关系是什么，上面说了微服务是一个错综复杂的调用链关系，假设模块A 调用模块B ，模块B 又调用了模块C ，模块C 调用了模块D，这个时候，模块D 出了问题出现严重的时延，这个时候，整个调用链就会被模块D 给拖垮，A 等B，B等C，C等D，并且A B C D的资源被锁死得不到释放，若是流量大的话还容易引发雪崩。熔断，主动丢弃模块D 的调用，并在功能上做出一些降级才能保证到咱们系统的健壮性。熔断是对模块的隔离，是保证了最大功能的可用性。

存储高可用数据复制/缓存/sharding

以前上面说的服务冗余，能够简单的理解为计算的高可用，计算高可用只须要作到无状态既可简单的扩容缩容，可是对于须要存储数据的系统来讲，数据自己就是有状态。

跟存储与计算相比，有一个本质的差异：

将数据从一台机器搬到另外一台机器，须要通过线路进行传输

网络是不稳定的，特别是跨机房的网络，ping的延时多是几十几百毫秒，虽然毫秒对于人来讲几乎没有什么感受，可是对于高可用系统来讲，就是本质上的不一样，这意味着整个系统在某个时间点上，数据确定是不一致的。按照“数据+逻辑=业务”的公式来看，数据不一致，逻辑一致，最后的业务表现也会不一致。举个例子

不管是正常状况下的传输延时，仍是异常状况下的传输中断，都会致使系统的数据在某个时间点出现不一致，而数据的不一致又会致使业务出现问题，可是若是数据不作冗余，系统的高可用没法保证

因此，存储高可用的难点不在于怎么备份数据，而在于如何减小或者规避数据不一致对业务形成的影响

分布式领域中有一个著名的CAP定理，从理论上论证了存储高可用的复杂度，也就是说，存储高可用不可能同时知足“一致性，可用性，分区容错性”，最多只能知足2个，其中分区容错在分布式中是必须的，就意味着，咱们在作架构设计时必须结合业务对一致性和可用性进行取舍。

存储高可用方案的本质是将数据复制到多个存储设备中，经过数据冗余的方式来现实高可用，其复杂度主要呈如今数据复制的延迟或中断致使数据的不一致性，咱们在设计存储架构时必须考虑到一下几个方面：

数据怎么进行复制
架构中每一个节点的职责是什么
数据复制出现延迟怎么处理
当架构中节点出现错误怎么保证高可用

数据主从复制

主从复制是最多见的也是最简单的存储高可用方案，例如Mysql，redis等等

其架构的优势就是简单，主机复制写和读，而从机只负责读操做，在读并发高时候可用扩张从库的数量减低压力，主机出现故障，读操做也能够保证读业务的顺利进行。

缺点就是客户端必须感知主从关系的存在，将不一样的操做发送给不一样的机器进行处理，并且主从复制中，从机器负责读操做，可能由于主从复制时延大，出现数据不一致性的问题。

数据主从切换

刚说了主从切换存在两个问题： 1.主机故障写操做没法进行 2.须要人工将其中一台从机器升级为主机

为了解决这个两个问题，咱们能够设计一套主从自动切换的方案，其中设计到对主机的状态检测，切换的决策，数据丢失和冲突的问题。

1.主机状态检测

须要多个检查点来检测主机的机器是否正常，进程是否存在，是否出现超时，是否写操做不可执行，读操做是否不可执行，将其进行汇总，交给切换决策

2.切换决策

肯定切换的时间决策，什么状况下从机就应该升级为主机，是进程不存在，是写操做不可这行，连续检测多少失败次就进行切换。应该选择哪个从节点升级为主节点，通常来讲或应该选同步步骤最大的从节点来进行升级。切换是自动切换仍是半自动切换，经过报警方式，让人工作一次确认。

3.数据丢失和数据冲突数据写到主机，尚未复制到从机主机就挂了，这个时候怎么处理，这个也得考虑业务的方式，是要确保CP或AP

还要考虑一个数据冲突的问题，这个问题在mysql中大部分是由自增主键引发，就算不考虑自增主键会引发数据冲突的问题，其实自增主键还要引发不少的问题，这里不细说，避免使用自增主键。

数据分片

上述的数据冗余能够经过数据的复制来进行解决，可是数据的扩张须要经过数据的分片来进行解决（若是在关系型数据库是分表）。

何为数据分片（segment，fragment， shard， partition），就是按照必定的规则，将数据集划分红相互独立、正交的数据子集，而后将数据子集分布到不一样的节点上。

HDFS ， mongoDB 的sharding 模式也基本是基于这种分片的模式去实现，咱们在设计分片主要考虑到的点是：

作数据分片，如何将数据映射到节点
数据分片的特征值，即按照数据中的哪个属性（字段）来分片
数据分片的元数据的管理，如何保证元数据服务器的高性能、高可用，若是是一组服务器，如何保证强一致性