大规模分布式系统性能测试实践

时间 2019-11-14

标签大规模分布式系统性能测试实践栏目系统架构繁體版

原文原文链接

1、云时代的应用性能测试挑战

2、华为云性能测试实践方案如何更加系统的开展性能测试活动

1. 被测对象分析（某社交类APP）html

从系统架构分析可能出现的瓶颈点，做为重点测试场景前端

Feed流会频繁操做后台的Redis等服务，每次操做会产生100+次网络操做，200+次key/Value运算，所以会成为系统的主要性能瓶颈redis

备注：Feed是将用户主动订阅的消息源组合在一块儿造成内容聚合器，帮助用户持续地获取最新的订阅源内容，在社交类应用中被普遍使用若干sql

2. 测试场景分析建模数据库

业务特色：用户增加迅速、突发事件高流量并发后端

Step1：以使用场景为主线，构建性能模型（使用角色、使用阶段等）缓存

Step2：分析每一个操做场景的影响因子，如好友、关注数量等，创建每一个场景的测试模型服务器

单场景一级接口测试网络

单场景二级接口测试架构

如需测试某个对性能的影响，可递增方式改变因子值进行测试

按照页面权重分配压力模型，实际在生产环境比例会不断变化，所以在性能摸底过程当中须要不断调整摸底

示例：全页面混合压测模型

3. 测试工具需求分析

识别关键场景测试需求

1) HTTP协议/Rest接口

2) 用户登录认证，模拟多用户操做

3) 支持接口串联场景，须要上下文关联

4) 性能暂无基线，须要支持递增模式快速摸底

5) 各页面用户量未知，须要灵活调整混合模型配比

6) 因为社交类应用业务增加迅速，所以须要支持按需使用，随时扩大工具的并发量

7) 须要支持10万以上的并发

8) 测试结果易于观察、保存

9) 提供监控能力，便于快速定位

4. 测试服务选型与搭建

测试服务选项原则：功能知足、效率高（即开即用）、成本低

云服务更适合测试高扩展性的大规模分布式系统：https://www.huaweicloud.com/product/cpts.html

5. 测试执行

分层开展性能测试，在集成阶段确保性能测试活动可开展

测试执行的一些典型问题

性能是一个逐步提高的过程，测试过程当中须要找到扩容的模型，从不足50的TPS提高至万级

6. 测试结果分析

1.1 如何从测试工具侧快速分析被测对象可能存在的问题

存在部分响应超时：

a) 服务器繁忙,如某个服务节点CPU利用率高

b) 网络IO超过VM/EIP带宽

c) 等待后端微服务、数据库的超时时间设置过长

运行一段时间后所有响应超时或者检查点校验不经过：

a) 大压力致使系统中某个微服务奔溃

b) 后端数据库无响应

TPS未随着并发数增加而上升：

a) 系统性能到达瓶颈，持续并发加压过程当中响应时延增长（可观察响应区间统计）

b) 可经过进一步加压是否会出现非正常响应验证

TP90响应时延较短，TP99时延高：

a) 系统性能接近瓶颈

b) 可经过进一步加压是否会出现非正常响应验证

1.2 一些通用优化建议

1) 扩容，链路中的某一应用可能出现cpu使用率较高或者链接池资源不够用(rpc、jdbc、redis链接池等)但自己对于拿到链接的请求处理又很快，这一类须要横向扩展资源。

2) 应用逻辑优化，好比存在慢sql、逻辑的不合理如调用db或者redis次数过多、没有作读写分离形成写库压力过大。

3) 超时时间的合理设置，对于应用之间的rpc调用或者应用与其余基础组件之间的调用，均须要设置合理的超时时间，不然过长的等待将形成整个链路的故障。

4) 缓存的应用，请求尽量从前端返回，而不是每个都要让后端应用处理后再返回，减轻后端应用及数据库压力，提升系统吞吐能力。

5) 限流，对于超出承载能力的QPS或并发，能够进行拦截并直接返回提示页面。

6) 降级，对于非核心链路上的应用，容许故障关闭而不影响核心链路

7) 扩容和优化也是有限度的，在评估容量内，保障核心交易链路正常是重中之重，对于非核心功能模块考虑降级场景

3、某互联网平台案例

业务特色：突发事件高流量突发，如瞬间由百级用户增加到万级

对于网络架构复杂的应用，能够经过网络架构上的分段验证，如分别从最外端的CDN入口（1）中间的ELB（2）业务层（3）分别作测试，验证网络架构上的瓶颈和影响

应用内部的性能瓶颈如何提高定位效率？

4、性能测试的最后一千米

集成APM，解决性能问题定位最后一千米问题，大幅提高性能测试效率

如：xxx并发状况下，服务A调用服务B的事务1出现问题，并直接定位至出错函数

在上线和活动前期经过云性能测试服务进行压力测试，发现部分接口的响应时间比较长，会出现比对失败和响应超时，经过APM的调用链分析，发现有部分SQL语句比较耗时，针对这些SQL查询语句，创建了索引，快速定位问题并迅速解决。
最终通过两轮测试优化后，官网首页访问响应超时与正常返回比提高了43.3%，预定试驾场景响应超时与正常返回比下降到0，提高了100%。
性能瓶颈定位时间，从官网未使用APM时须要1周，缩短到俱乐部使用APM后的0.5天，效率提高90%

应用拓扑

事务监控

调用链跟踪

大规模分布式系统性能测试实践

1、云时代的应用性能测试挑战

2、华为云性能测试实践方案如何更加系统的开展性能测试活动

3、某互联网平台案例

4、性能测试的最后一千米

5、性能测试服务关键能力要求