全链路压测落地和演进之路

​前言

笔者所在的公司是一家快速发展的互联网电商公司,在保证业务快速稳定发展的同时,对于系统稳定性、可用性和扩展性的要求,也在不断提升。前端

特别是互联网电商企业每一年的两次大考:618&双11,更是对服务的三大特性有更多的要求。在大促活动开启以前,不管是前期的核心业务梳理、线上流量评估、场景建模,后端

仍是测试实施阶段的监控分析、调优验证,乃至线上的容量规划,每一个环节都须要作不少工做。且这些工做都须要运维、开发、测试、产品甚至数据分析团队的协同配合,才能保质高效的完成。缓存

全链路压测,做为电商大促的稳定性保障利器,也在不断的迭代演进。安全

这篇文章,为你们介绍下全链路压测在我司的落地和实践演进史。性能优化

固然,其中的某些敏感部分已脱敏,请谅解(图片水印为本人微信公众号水印)服务器

 

落地

挑战

去年双十一,为了应对零点的峰值流量冲击,咱们在八月下旬启动了第一次全链路压测。因为是从零开始,所以单独的搭建了一套和生产1:1的环境。微信

2个月的时间,环境成本就高达几百万。从项目KO到双十一活动开始,第一次双十一大促,咱们面临着下面几点挑战。架构

核心链路梳理

电商业务自己比较复杂,且当前阶段咱们微服务架构下,各个服务间依赖高,调用关系复杂,且没有较为清晰的链路梳理。框架

因此,面临的第一个挑战,就是从错综复杂的系统中梳理出核心业务链路。运维

如上图所示,梳理核心链路前必定要考虑清楚上面三个问题:

1)咱们在梳理什么?

梳理核心链路,其实是对咱们的业务场景、数据场景和逻辑场景的梳理。

2)什么是核心链路?

从实践来讲,核心链路主要有这几个特色:它是核心业务汇集区域、牵一发而动全身、影响导购下单支付。

3)为何要梳理它?

梳理核心链路最重要的目的是让团队的每一个人都清晰的知道:谁会影响个人服务,我会影响谁的服务,以及梳理过程当中发现潜在的风险。

 

环境成本高昂

按照业内的实践经验和方案,全链路压测都是在生产环境进行,这样测试的结果才能更贴近实际的生产场景。

但因为咱们是第一次进行全链路压测,所以只能选择折中方案——按照生产环境当前的配置,搭建一套等配镜像环境

镜像环境从资源准备到服务部署联调都比较耗时,且成本高昂,这逼迫咱们必须拿到更好的结果,才能提升ROI。

 

流量评估困难

为了尽量使压测场景更贴近真实的生产场景,须要对核心链路的流量模型进行比较准确的评估和模型确认。

因为各服务间依赖较高,且调用关系复杂,这对咱们提出了新的挑战——如何评估出更接近真实场景的流量模型。

流量评估从我我的角度来讲,最大的难点实际上在于找到切入点。

而最好的切入点,除了前面讲到的核心链路梳理,其次就在于完善的监控体系。其中,核心链路梳理是前置项,而监控工具则是流量评估的提效工具。

1)评估流量

完成核心链路梳理后,能够依据核心链路的请求调用关系进行上下游分析。相关工具的话,开源的有jaeger、skywalking、pinpoint等。

2)模型分析

模型分析主要关注三点:入口流量、内部流量和出口流量。它们各自的区别以下:

      • 入口流量:主要指到达网关入口的预估峰值流量;

      • 内部流量:微服务架构下,内部服务间调用会出现单个接口被屡次调用的状况,这是须要重点关注的;

      • 出口流量:这里指的是核心链路以外的下游调用以及一些外部调用;

3)安全水位

所谓的安全水位,即服务能在保证自身比较稳定的状况下支撑业务的能力,通常以CPU%为基准。业内目前的安全水位,大多以40%——50%为安全水位。固然,安全水位的设定须要明确以下三点:

      • 最大处理能力:即服务器资源耗用达到超过90%时的处理能力;

      • 稳定处理能力:服务在安全水位线时候的处理能力;

      • 水平扩容可否提升能力:服务集群可否经过快速的水平扩容来提升处理能力;

 

任务多线开展

在双十一启动到活动开始这段时间,须要同时开展的任务较多。好比服务拆分、小红点迁移、DB&Redis垂直拆分、全链路压测及性能优化,以及新的业务线不断拓展,这些都是咱们须要面对而且克服的困难。

 

过程

启动阶段

任务拆分

项目kickoff后,在负责人牵头下肯定了本次双11的TODO项。主要是以下几项:

前端:降级点确认、容错保护、监控数据接入;

后端:核心链路梳理、监控&服务保护接入、专项预案、

测试:资源准备、压测模型梳理、压测方案、预案演练、线上功能验证;

基础架构:架构优化、DB垂直拆分、基础设施接入(链路追踪、监控、报警......);

资源保障:容量规划、镜像环境搭建、服务部署联调、线上扩容;

 

准备阶段

在准备阶段,按照任务规划拆解出来的细化任务进行同步开展,下面是准备阶段咱们开展的主要事项。

核心链路梳理

各业务研发团队的owner对咱们目前的核心业务链路进行了梳理,主要包括:首页、商品、订单、支付、用户、风控、优惠券、大促活动、基础服务等。

流量模型梳理

梳理了首页、商品、交易、支付等关键场景的下游依赖。将商品+交易+支付绘制了对应的依赖大图,并粗估双十一峰值数据,做为接下来压测、性能优化的技术目标。

镜像环境准备

因为本次全链路压测是在和生产等配的镜像环境进行,至关于一切从零开始搭建一套环境,不管是资源准备、服务部署仍是服务联调验证,都耗费了较多的时间。

运维同窗投入了很大的精力作support,从中也发现了咱们以前的一些不足,累积了不少经验。

压测数据准备

为了尽量保证压测数据的真实性,咱们的解决方案是复制生产库的数据,进行脱敏和可用性验证,用来作压测的基础数据。

在数据脱敏和可用性验证这点,安全团队、DBA以及功能测试的同窗给予了很大支持。

专项预案沟通

专项预案主要包括以下几项:限流、降级、熔断、脉冲、资损五种场景。

大促指标沟通

为保证压测流量和生产预估流量对齐,和运营产品同窗进行了屡次沟通,确认了本次双十一大促活动相关的活动场次、时间段、优惠券投放量、预估DAU等相关关键指标。

线上链路监控

监控就是咱们的眼睛,有了监控,才能快速发现问题并定位修复问题。这一点,基础架构的同窗为此作了不少工做。好比:链路追踪监控的Cat、可视化监控大盘-Grafana以及更多的监控组件。

 

实施阶段

在全链路压测实施阶段,根据测试场景和测试策略,咱们主要进行了以下工做:

单机单链路基准测试

在微服务架构下,总体链路的性能瓶颈,取决于短板(木桶原理)。所以,单机单链路基准测试的目的,是在全链路压测开始前进行性能摸底,定位排查链路瓶颈。

单机混合链路水位验证

单机混合链路压测的目的,是排查上下游调用依赖的瓶颈,并以此测试结果做为限流预案的基准值。

全链路压测演练

全链路压测是大促的保障。在整个实施阶段,须要不断的压测、排查定位分析问题并进行优化,最终拿到结果。

专项演练

专项演练主要是针对服务限流降级熔断以及高可用、服务扩容进行验证。进行演练的目的主要有以下几项:

      • 验证预案是否生效;

      • 针对预案设定阈值进行测试调优;

      • 验证预案生效时服务自己的稳定性;

稳定性测试

稳定性测试的目的,是验证系统处于负载状况下,可否长时间提供稳定的服务能力。

每日问题复盘

在双十一期间,会针对天天压测发现的问题进行复盘,尽量让性能问题及时解决。

 

发布阶段

通过闭关做战半个月,针对咱们的核心业务链路,进行了多轮的压测和性能优化,各系统qps已经基本达到了预约的目标(等比例)。

 

演进

从19年双十一,到今年双十一及双十二,全链路压测在我司的演进,整体能够从以下几个阶段来介绍,这几个阶段分别有大事件发生,也正好推进了全链路压测的迭代演进。

五彩石

时间

2020年3月

环境准备

混部环境(测试+预发+生产):特殊的环境致使了19年双11沉淀的一些经验几乎没法复用,环境问题也是五彩石全链路压测过程当中,最大的难点和挑战。

最终的解决方案是接入流量标框架fusion+生产部分服务mock+生产DB建立影子库表的方式来解决了这个问题。

数据准备

经过生产数据定时同步到影子库+数据清洗的方式,准备了千万量级的压测相关数据。

总体耗时

从前期链路梳理到框架接入、影子库表建立、可用性验证、以及压测优化完成,共耗时24个天然日。

固然,因为当时整个环境是业务测试+产品验收+数据迁移+压测共用,实际耗时实际上是不多的。

方法论

19年双11沉淀的无法复用,业内也没有这种特殊环境下的压测方法论,对压测团队而言,是一次从新探索实践

覆盖范围

因为五彩石项目主要是交易体系重构,当时全链路压测的覆盖范围也仅限于核心交易+搜索链路。

 

618大促

时间

2020年5月

环境准备

从今年618开始,咱们的全链路压测开始在生产环境开展。关于环境的前置准备,主要是表结构同步检查+ECS规格巡检以及其余好比SLB、CDN、带宽的资源的平常巡检。

数据准备

数据准备主要分两个方面:

用户数据:专门准备了100W的虚拟用户数据,经过逻辑身份绑定和替换的方式,按序打通总体用户数据可用性。

业务测试数据:同步生产真实数据,针对敏感数据进行脱敏处理,而后业务数据绑定虚拟用户数据。

总体耗时

618阶段相比于五彩石,环境相对来讲没那么复杂,且五彩石自己有必定的适合咱们本身的技术沉淀,所以整个压测全阶段的耗时,相比五彩石少了很多,耗时为15天。

方法论

因为五彩石已有了必定的探索实践经验,在618全链路压测阶段,进行了补充完善。

20年618的全链路压测,能够说是咱们全链路压测方法论从0到1落地的重要实践

覆盖范围

618相比于五彩石,压测的核心链路覆盖范围扩大了很多,主要包括交易+搜索+社区+客户端部分核心链路。

 

五周年活动

时间

2020年9月

环境准备

生产环境:表结构同步检查+ECS规格巡检以及其余好比SLB、CDN、MQ、带宽等资源的平常巡检。

数据准备

数据准备策略基本和618保持一致,虚拟用户数据保持不变,因为版本迭代的缘由,只变动了部分业务测试数据。

总体耗时

从需求提出到开始压测,耗时仅用三天!

方法论

基本参照了618沉淀的技术文档以及一些实践经验,作到了快速复用

覆盖范围

因为五周年活动主要是一些营销相关的玩法,本次覆盖范围为交易+搜索+无线平台部分核心链路。

 

双十一大促

时间

2020年10月

环境准备

到今年双十一,生产环境已经成了全链路压测的标配环境。

数据准备

用户数据:因为业务快速增加,考虑到数据分布和业务逻辑缓存的问题,此次虚拟用户从100W增长到了700W;

业务测试数据:从新将生产环境的数据同步到影子库,针对性进行脱敏处理。

总体耗时

因为版本迭代和业务逻辑的不断变化,在准备阶段,从新梳理了核心链路以及强弱依赖,对流量模型进行了重构。迭代优化了主动/紧急预案、新增了缓存预热+客户端限流浮层。

容量巡检方面,新增了ToB的慢SQL梳理、MQ堆积告警等事项。且在今年双十一,咱们接入了Zeus压测平台,对整个压测过程进行了规范提效。

整个准备阶段耗时15天,经过6次通宵压测,完美的达到了预期指标并留有必定冗余空间。

方法论

若是说19年双十一是从零开始,五彩石是从新探索触发,618是从零到一落地,五周年是快速复用,那么20年双十一的全链路压测,能够用从一到十来归纳。

覆盖范围

相比于以前,本次双十一打通了风控链路。风控研发团队经过接入fusion框架+dubbo改造,让咱们总体的压测流量能一直透传到风控服务,这样对总体的稳定性来讲,提高是潜移默化而且巨大的。

覆盖范围:交易+搜索+无线平台(社区+客户端+增加)+风控。

 

大促方法论

经过这几回大的技术项目,全链路压测,从零开始探索实践,到从零到一的能快速复用的方法论,以及从一到十的完善优化,咱们也渐渐找到了适用于咱们得物的全链路压测方法论。

 

性能指标提高

全链路压测在我司的不断演进,对应的是咱们核心链路的性能不断突破新的领域。相信明年的618和双十一,咱们的服务稳定性和性能表现,会达到一个更高的高度,不断超越本身。

 

将来

关于将来的工做规划,实际上还有不少方向等待咱们去探索实践。好比:

技术优化

在技术优化规划方面,咱们主要集中在针对Dubbo、gRPC等协议的压测组件扩展支持,流量录制回放,全链路压测SOP等方面。其中全链路压测SOP、多协议压测组件支持,已经在路上。

场景覆盖

场景覆盖方面,考虑到后续业务场景的愈加复杂,以及大促营销玩法的不断变化,咱们会不断拓展核心链路的覆盖范围,探索深度组合场景在全链路压测中的实践,尽量贴近真实的业务场景。

数据预埋

目前的数据预埋方式相对来讲效率仍是比较低的,后续规划中,会尝试自动化数据预埋的方案接入,以及缓存预热的方案梳理以及在针对深度组合场景的数据构造方面,有新的探索和实践。

流程提效

经过不断实践和团队的大量演练,后续的大促保障和生产全链路压测,咱们但愿经过SOP的方式,使其标准化,从经验复用过分到有法可循。

自动化和常态化方面,更多的是技术上的不断创新和落地实践,相信在不久的未来,咱们能将这些一一落地,对生产稳定性保障,大促全链路压测,有更好的支持。

相关文章
相关标签/搜索