在互联网行业,线上服务的升级更新可谓屡见不鲜。据统计,在过去的一个季度中闲鱼工程师们执行了千余次发布,总计更新的代码数量超过百万行。算法
这些发布中,有一些可能只更新了几行代码,而有一些可能执行了整个集群的迁移升级。而不管这些变动的影响面有多大,咱们都必须保证线上服务的可用性,用户无感知。本文将以闲鱼搜索服务的迁移升级为例,向你们介绍其背后的技术方案。数据库
闲鱼的底层搜索服务由查询规划服务 Search Planner、查询理解服务 Query Planner、打分排序服务 Rank Service 以及搜索引擎 Heaven Ask 3 所组成。它们之间的相互调用关系以下图所示:缓存
能够看到,整个搜索服务是由多个相互独立的微服务所构成的。不一样的微服务之间相互隔离,经过预先向外暴露的接口提供服务。全部的微服务最终经过 Search Planner 收口,对外提供统1、完整的搜索能力。安全
在底层搜索服务之上,还有业务逻辑层和接入网关层,具体架构在此再也不赘述。用户的搜索请求先经过网关层转发给逻辑层处理,再向底层搜索服务发起搜索请求。这条请求链上包含数十个集群,调用深度达到两位数,整个过程当中提供服务的服务器数量可能有成百上千。服务器
对于这样一个复杂的系统,升级过程显然没法一蹴而就。好消息是各个微服务之间合理的解耦合给升级工做带来了很大的便利,有效避免牵一发动全身而致使无从下手,使咱们能够分门别类地处理升级问题。架构
开始升级以前,咱们首先须要确认被升级的服务是否保持了向前与向后兼容性。保持兼容不只减小了工做量,也减小了升级所致使的故障风险。负载均衡
为了尽可能避免升级致使的不兼容,咱们能够总结一些开发原则:框架
在升级时,先升级那些没有外部依赖的服务。等到被依赖方升级完毕以后,再去升级依赖方。肯定了每个服务的升级顺序以后,咱们再根据服务的实际状况肯定升级方案。分布式
正式进入升级流程,咱们首先关注搜索链路中的被设计成无状态服务的部分,例如用于处理业务逻辑的 Java 微服务、用于处理查询逻辑的 Search Planner 等。它们的共同特色是,每一个请求处理完毕以后,关于该次请求的资源即被释放。不一样的请求之间没有相互依赖和时序要求。同一个无状态服务内不一样的机器节点是彻底等价的。函数
无状态服务的特色使得它们很容易经过水平扩展来动态扩缩容。所以在保证兼容的前提下,它们的升级流程相对通用而且简单:
通常来讲咱们能够经过把状态存储在消息队列、缓存、数据库或者其它外部中间件中来达成服务的无状态。把服务设计成无状态的好处显而易见:升级时不须要分配额外的机器资源,升级速度快,变动代价小,于是能够支持频繁的迭代更新。可是,这种设计也给状态访问和更新带来了额外的开销,在某些性能敏感的场合多是不适用的。
咱们继续关注有状态的部分。有状态服务升级的麻烦之处在于,状态的存储、恢复、转移每每由服务根据实际状况单独设计(或者根本没有设计),于是升级较为困难。咱们能够简单列举一些相对通用的有状态服务升级可选方案。
在闲鱼搜索的架构中,搜索引擎自己提供的虽然是无状态服务,可是引擎内部保存了用于处理索引分区,增量进度的各类状态。最终使用的升级方案以下:
和无状态服务的升级相比,这种方式不只额外使用了一倍的机器资源,并且每次升级都须要作一次复杂而繁琐的服务配置。若是服务自己不是无状态的,还须要自行编码实现切流逻辑,保证同一个用户的请求可以落到同一个集群上。总体升级成本较为昂贵,只适合更新频率很是低的服务。若是服务的更新频率较高,则应该根据服务的实际状况设计实现升级成本更低的方案。
在升级过程当中,服务发现机制承担着重要做用。它为咱们提供了如下功能:
服务发现是流量调控的总阀门。一个成熟稳定的服务发现机制不只能够有效避免发布致使的请求成功率抖动,也为发生异常时快速回滚止血提供了保证。
对搜索链路的每个集群按照依赖顺序进行服务升级、挂载、切流无疑是高危操做,稍有不慎就可能引发线上故障。所以,咱们按照阿里巴巴安全生产三板斧原则对升级流程进行了梳理:
综上所述,复杂系统不停机升级的原则和流程能够归纳以下:
闲鱼搜索服务升级的整个执行过程经历了两个月的时间。这其中咱们既保证了用户无感知,线上服务稳定运行,也保证了与咱们合做开发的算法团队以及其余工程团队的正常开发不受影响。
在实际执行的过程当中,咱们还遇到了不少细节上的问题。例如建立新服务时未能提早合理预估预算需求,致使升级过程当中不断挪借预算,拆东墙补西墙。又好比异地多活部署带来的延迟问题迫使服务保持单元化,给升级过程当中的流量调控工做带来了不少挑战。这些暴露的问题也为咱们继续完善架构和方案提供了指引。
做者:闲鱼技术
转载自公众号
连接: https://mp.weixin.qq.com/s/Vc...