软件体系架构阅读笔记(六)

时间 2019-12-09

原文原文链接

网站的高性能架构前端

什么叫高性能的网站？数据库

两个网站性能架构设计方案：A方案和B方案，A方案在小于100个并发用户访问时，每一个请求的响应时间是1秒，当并发请求达到200的时候，请求的响应时间将骤增到10秒。B方案不论是100个并发用户访问仍是200个并发用户访问，每一个请求的响应时间都差很少是1.5秒。哪一个方案的性能好？若是老板说“咱们要改善网站的性能”，他指的是什么？浏览器

同类型的两个网站，X网站服务器平均每一个请求的处理时间是500毫秒，Y网站服务器平均每一个请求的处理时间是1000毫秒，为何用户却反映Y网站的速度快呢？缓存

网站性能是客观的指标，能够具体体现到响应时间、吞吐量等技术指标，同时也是主观的感觉，而感觉则是一种与具体参与者相关的微妙的东西，用户的感觉和工程师的感觉不一样，不一样的用户感觉也不一样。安全

网站性能测试性能优化

性能测试是性能优化的前提和基础，也是性能优化结果的检查和度量标准。不一样视角下的网站性能有不一样的标准，也有不一样的优化手段。服务器

不一样视角下的网站性能网络

软件工程师说到网站性能的时候，一般和用户说的不同。多线程

1．用户视角的网站性能架构

从用户角度，网站性能就是用户在浏览器上直观感觉到的网站响应速度快仍是慢。用户感觉到的时间，包括用户计算机和网站服务器通讯的时间、网站服务器处理的时间、用户计算机浏览器构造请求解析响应数据的时间，如图4.1所示。

图4.1 用户视角的网站性能

不一样计算机的性能差别，不一样浏览器解析HTML速度的差别，不一样网络运营商提供的互联网宽带服务的差别，这些差别最终致使用户感觉到的响应延迟可能会远远大于网站服务器处理请求须要的时间。

在实践中，使用一些前端架构优化手段，经过优化页面HTML式样、利用浏览器端的并发和异步特性、调整浏览器缓存策略、使用CDN服务、反向代理等手段，使浏览器尽快地显示用户感兴趣的内容、尽量近地获取页面内容，即便不优化应用程序和架构，也能够很大程度地改善用户视角下的网站性能。

2．开发人员视角的网站性能

开发人员关注的主要是应用程序自己及其相关子系统的性能，包括响应延迟、系统吞吐量、并发处理能力、系统稳定性等技术指标。主要的优化手段有使用缓存加速数据读取，使用集群提升吞吐能力，使用异步消息加快请求响应及实现削峰，使用代码优化手段改善程序性能。

3．运维人员视角的网站性能

运维人员更关注基础设施性能和资源利用率，如网络运营商的带宽能力、服务器硬件的配置、数据中心网络架构、服务器和网络带宽的资源利用率等。主要优化手段有建设优化骨干网、使用高性价比定制服务器、利用虚拟化技术优化资源利用等。

性能测试指标

不一样视角下有不一样的性能标准，不一样的标准有不一样的性能测试指标，从开发和测试人员的视角，网站性能测试的主要指标有响应时间、并发数、吞吐量、性能计数器等。

1．响应时间

指应用执行一个操做须要的时间，包括从发出请求开始到收到最后响应数据所须要的时间。响应时间是系统最重要的性能指标，直观地反映了系统的“快慢”。

测试程序经过模拟应用程序，记录收到响应和发出请求之间的时间差来计算系统响应时间。可是记录及获取系统时间这个操做也须要花费必定的时间，若是测试目标操做自己须要花费的时间极少，好比几微秒，那么测试程序就没法测试获得系统的响应时间。实践中一般采用的办法是重复请求，好比一个请求操做重复执行一万次，测试一万次执行须要的总响应时间之和，而后除以一万，获得单次请求的响应时间。

2．并发数

指系统可以同时处理请求的数目，这个数字也反映了系统的负载特性。对于网站而言，并发数即网站并发用户数，指同时提交请求的用户数目。

与网站并发用户数相对应的还有网站在线用户数（当前登陆网站的用户总数）和网站系统用户数（可能访问系统的总用户数，对多数网站而言就是注册用户数）。其数量比较关系为：

网站系统用户数>>网站在线用户数>>网站并发用户数

在网站产品设计初期，产品经理和运营人员就须要规划不一样发展阶段的网站系统用户数，并以此为基础，根据产品特性和运营手段，推算在线用户数和并发用户数。这些指标将成为系统非功能设计的重要依据。

现实中，常常看到某些网站，特别是电商类网站，市场推广人员兴致勃勃地打广告打折促销，用户兴致勃勃地去抢购，结果活动刚一开始，就由于并发用户数超过网站最大负载而响应缓慢，急性子的用户不停刷新浏览器，致使系统并发数更高，最后以服务器系统崩溃，用户浏览器显示“Service is too busy”而了结。出现这种状况，有多是网站技术准备不充分致使，也有多是运营人员错误地评估并发用户数致使。

测试程序经过多线程模拟并发用户的办法来测试系统的并发处理能力，为了真实模拟用户行为，测试程序并非启动多线程而后不停地发送请求，而是在两次请求之间加入一个随机等待时间，这个时间被称做思考时间。

3．吞吐量

指单位时间内系统处理的请求数量，体现系统的总体处理能力。对于网站，能够用“请求数/秒”或是“页面数/秒”来衡量，也能够用“访问人数/天”或是“处理的业务数/小时”等来衡量。TPS（每秒事务数）是吞吐量的一个经常使用量化指标，此外还有HPS（每秒HTTP请求数）、QPS（每秒查询数）等。

在系统并发数由小逐渐增大的过程当中（这个过程也伴随着服务器系统资源消耗逐渐增大），系统吞吐量先是逐渐增长，达到一个极限后，随着并发数的增长反而降低，达到系统崩溃点后，系统资源耗尽，吞吐量为零。

而这个过程当中，响应时间则是先保持小幅上升，到达吞吐量极限后，快速上升，到达系统崩溃点后，系统失去响应。系统吞吐量、系统并发数及响应时间之间的关系将在本章后面内容中介绍。

系统吞吐量和系统并发数，以及响应时间的关系能够形象地理解为高速公路的通行情况：吞吐量是天天经过收费站的车辆数目（能够换算成收费站收取的高速费），并发数是高速公路上的正在行驶的车辆数目，响应时间是车速。车辆不多时，车速很快，可是收到的高速费也相应较少；随着高速公路上车辆数目的增多，车速略受影响，可是收到的高速费增长很快；随着车辆的继续增长，车速变得愈来愈慢，高速公路愈来愈堵，收费不增反降；若是车流量继续增长，超过某个极限后，任何偶然因素都会致使高速所有瘫痪，车走不动，费固然也收不着，而高速公路成了停车场（资源耗尽）。

网站性能优化的目的，除了改善用户体验的响应时间，还要尽可能提升系统吞吐量，最大限度利用服务器资源。

4．性能计数器

它是描述服务器或操做系统性能的一些数据指标。包括System Load、对象与线程数、内存使用、CPU使用、磁盘与网络I/O等指标。这些指标也是系统监控的重要参数，对这些指标设置报警阈值，当监控系统发现性能计数器超过阈值时，就向运维和开发人员报警，及时发现处理系统异常。

System Load即系统负载，指当前正在被CPU执行和等待被CPU执行的进程数目总和，是反映系统忙闲程度的重要指标。多核CPU的状况下，完美状况是全部CPU都在使用，没有进程在等待处理，因此Load的理想值是CPU的数目。当Load值低于CPU数目的时候，表示CPU有空闲，资源存在浪费；当Load值高于CPU数目的时候，表示进程在排队等待CPU调度，表示系统资源不足，影响应用程序的执行性能。在Linux系统中使用top命令查看，该值是三个浮点数，表示最近1分钟，10分钟，15分钟的运行队列平均进程数。

性能测试方法

性能测试是一个总称，具体可细分为性能测试、负载测试、压力测试、稳定性测试。

性能测试

以系统设计初期规划的性能指标为预期目标，对系统不断施加压力，验证系统在资源可接受范围内，是否能达到性能预期。

负载测试

对系统不断地增长并发请求以增长系统压力，直到系统的某项或多项性能指标达到安全临界值，如某种资源已经呈饱和状态，这时继续对系统施加压力，系统的处理能力不但不能提升，反而会降低。

压力测试

超过安全负载的状况下，对系统继续施加压力，直到系统崩溃或不能再处理任何请求，以此得到系统最大压力承受能力。

稳定性测试

被测试系统在特定硬件、软件、网络环境条件下，给系统加载必定业务压力，使系统运行一段较长时间，以此检测系统是否稳定。在不一样生产环境、不一样时间点的请求压力是不均匀的，呈波浪特性，所以为了更好地模拟生产环境，稳定性测试也应不均匀地对系统施加压力。

性能测试是一个不断对系统增长访问压力，以得到系统性能指标、最大负载能力、最大压力承受能力的过程。所谓的增长访问压力，在系统测试环境中，就是不断增长测试程序的并发请求数，通常说来，性能测试遵循如图4.3所示的抛物线规律。

图4.3中的横坐标表示消耗的系统资源，纵坐标表示系统处理能力（吞吐量）。在开始阶段，随着并发请求数目的增长，系统使用较少的资源就达到较好的处理能力（a～b段），这一段是网站的平常运行区间，网站的绝大部分访问负载压力都集中在这一段区间，被称做性能测试，测试目标是评估系统性能是否符合需求及设计目标；随着压力的持续增长，系统处理能力增长变缓，直到达到一个最大值（c点），这是系统的最大负载点，这一段被称做负载测试。测试目标是评估当系统由于突发事件超出平常访问压力的状况下，保证系统正常运行状况下可以承受的最大访问负载压力；超过这个点后，再增长压力，系统的处理能力反而降低，而资源消耗却更多，直到资源消耗达到极限（d点），这个点能够看做是系统的崩溃点，超过这个点继续加大并发请求数目，系统不能再处理任何请求，这一段被称做压力测试，测试目标是评估可能致使系统崩溃的最大访问负载压力。

图4.3 性能测试曲线

性能测试反应的是系统在实际生产环境中使用时，随着用户并发访问数量的增长，系统的处理能力。与性能曲线相对应的是用户访问的等待时间（系统响应时间），如图4.4所示。

图4.4 并发用户访问响应时间曲线

在平常运行区间，能够得到最好的用户响应时间，随着并发用户数的增长，响应延迟愈来愈大，直到系统崩溃，用户失去响应。

性能测试报告

测试结果报告应可以反映上述性能测试曲线的规律，阅读者能够获得系统性能是否知足设计目标和业务要求、系统最大负载能力、系统最大压力承受能力等重要信息，表4.2是一个简单示例。性能优化策略

若是性能测试结果不能知足设计或业务需求，那么就须要寻找系统瓶颈，分而治之，逐步优化。

1．性能分析

大型网站结构复杂，用户从浏览器发出请求直到数据库完成操做事务，中间须要通过不少环节，若是测试或者用户报告网站响应缓慢，存在性能问题，必须对请求经历的各个环节进行分析，排查可能出现性能瓶颈的地方，定位问题。

排查一个网站的性能瓶颈和排查一个程序的性能瓶颈的手法基本相同：检查请求处理的各个环节的日志，分析哪一个环节响应时间不合理、超过预期；而后检查监控数据，分析影响性能的主要因素是内存、磁盘、网络、仍是CPU，是代码问题仍是架构设计不合理，或者系统资源确实不足。

2．性能优化

定位产生性能问题的具体缘由后，就须要进行性能优化，根据网站分层架构，可分为Web前端性能优化、应用服务器性能优化、存储服务器性能优化3大类。