大型网站架构模式

  什么是模式?这个来自建筑学的词汇是这样定义的:“每个模式描述定义了一个在咱们周围不断重复发生的问题及该问题解决方案的核心。这样,你就能一次又一次地使用该方案而没必要作重复的工做”。模式的关键在于模式的可重复性,问题与场景的可重复性带来解决方案的可重复使用。前端

网站的架构模式

一、分层

分层是企业应用系统中最多见的一种架构模式,将系统在横向维度上切分红几个部分,每一个部分负责一部分相对比较单一的职责,而后经过上层对下层的依赖和调用组成一个完整的系统。这里个人理解是 就像是 Service 层调用 DAO 层,而后 DAO 再去操做数据库这样。mysql

分层的优势:能够更好的将一个庞大的软件系统切分红不一样的部分,便于分工合做开发和维护;各层之间具备必定的独立性,只要维持调用接口不变,各层能够根据具体问题独立演化发展而不须要其余层必须作出相应调整。git

分层也有一些挑战:必须合理规划层次边界和接口,在开发过程当中,严格遵循分层架构的约束,禁止跨层次的调用(应用层直接调用数据层)及逆向调用(数据层调用服务层或者服务层调用应用层)。算法

分层架构是逻辑上的,在物理部署上,三层结构能够部署在同一台物理机上,但随着业务发展,必然须要对已经分层的模块分离部署。分层结构对网站支持高并发向分布式方向发展相当重要。所以在网站规模还很小的时候就应该采用分层的架构,这样未来网站作大时才能更好的应对。sql

二、分割

网站越大,功能越复杂,服务和数据处理的种类也越多,将这些不一样的功能和服务分割开来,包装成 高内聚低耦合 的 模块单元,一方面有助于软件的开发和维护;另外一方面,便于不一样模块的分布式部署,提升网站的并发处理能力和功能扩展能力。数据库

三、分布式

对于大型网站,分层和分割的一个主要目的是为了切分后的模块便于分布式部署,即将不一样模块部署在不一样的服务器上,经过远程调用协同工做。后端

分布式优势:可使用更多的计算机完成一样的功能,计算机越多,CPU、内存、存储资源也就越多,可以处理的并发访问和数据量就越大。浏览器

但分布式在解决网站高并发问题的同时也带来了其余问题:缓存

a. 分布式意味着服务调用必须经过网络,可能会对性能形成比较严重的影响;安全

b. 服务器越多,其宕机的几率也就越大,一台服务器宕机形成的服务不可用可能会致使不少应用不可访问,是网站可用性下降;

c. 数据在分布式的环境中保持数据一致性也很是困难,分布式事务也难以保证,这对网站业务正确性和业务流程有可能形成很大影响;

d. 分布式还致使网站依赖错综复杂,开发管理维护困难。

经常使用的分布式方案有如下几种:

A. 分布式应用和服务:将分层和分割后的应用和服务模块分布式部署,除了能够盖上网站性能和并发性、加快开发和发布速度、减小数据库链接资源消耗外;还可使不一样应用复用共同的服务,分布式静态资源:网站的静态资源如 JS、CSS、Logo 图片等资源独立分布式部署,并采用独立的域名。静态资源分布式部署能够减轻应用服务器的负载压力;经过使用独立域名加快浏览器并发加载的速度;由负责用户体验的团队进行开发维护有利于网站分工合做,使不一样技术工种术业有专攻。业务功能扩展。

B. 分布式静态资源:网站的静态资源如 JS、CSS、Logo 图片等资源独立分布式部署,并采用独立的域名。静态资源分布式部署能够减轻应用服务器的负载压力;经过使用独立域名加快浏览器并发加载的速度;由负责用户体验的团队进行开发维护有利于网站分工合做,使不一样技术工种术业有专攻。

C. 分布式数据和存储:大型网站须要处理以P为单位的海量数据,单台计算机没法提供如此大的存储空间,须要分布式存储。除了对传统的关系型数据库进行分布式部署外,为网站应用而生的各类NoSQL产品几乎都是分布式的。

D. 分布式计算:目前网站广泛使用 Hadoop 及其 MapReduce 分布式计算框架进行批处理计算,其特色是移动计算而不是移动数据,将计算程序分发到数据所在的位置以加速计算和分布式计算。

此外,还有能够支持网站线上服务器配置实时更新的分布式配置;分布式环境下实现并发和协同的分布式锁;支持云存储的分布式文件系统。

四、集群

使用分布式虽然已经将分层和分割后的模块独立部署,可是对于用户访问几种的模块(好比首页),还须要将独立部署的服务器集群化,即多台服务器部署相同应用构成一个集群,经过负载均衡设备共同对外提供服务。

集群优势:

a. 由于服务器集群有更多的服务器提供相同服务,所以能够提供更好的并发特性,当有更多用户访问的时候,只须要向集群中加入新机器便可。

b. 当某台服务器发生故障时,负载均衡设备或者系统的失效转移机制会将请求转发到集群中其余服务器上,不影响用户使用。

因此在网站应用中,即便是访问量很小的分布式应用和服务,也至少要部署两台服务器构成一个小的集群,以提升系统的可用性。

五、缓存

缓存就是将数据存放在距离计算机最近的的位置以加快处理速度,缓存是改善软件性能的第一手段。

CDN:即内容分发网络(Content Distribute Network),部署在距离终端用户最近的网络服务商,用户的网络请求老是先到达他的网络服务商那里,在这里缓存网站的一些静态资源(较少变化的数据),能够就近以最快速度返回给用户。

反向代理:反向代理属于网站前端架构的一部分,部署在网站的前端,当用户请求到达网站的数据中心时,最早访问到的就是反向代理服务器,这里缓存网站的静态资源,无需将请求继续转发给应用服务器就能返回给用户。

本地缓存:在应用服务器本地缓存这热点数据,应用程序能够在本机内存中直接访问数据,而无需访问数据库。

分布式缓存:大型网站的数据量很是庞大,除了本地缓存,还须要分布式缓存,将数据缓存在一个专门的分布式缓存集群中,应用程序经过网路通讯访问缓存数据。缓存除了能够加快数据访问速度,还能够减轻后端应用和数据存储的负载压力。

使用缓存有两个前提条件:

a. 数据访问热点不均衡,某些数据会被更频繁的访问,应该放在缓存中

b. 数据在某个时间段内有效,不会很快过时,不然缓存的数据就会因已经失效而产生脏读,影响结果的正确性。

六、异步

在大型网站的架构中,系统解耦的手段除了前面提到的分层、分割、分布式等,还有一个重要的手段就是异步。业务之间的消息传递不是同步调用,而是将一个业务操做分红多个阶段,每一个阶段之间经过共享数据的方式异步执行进行协做。

在单一服务器内部可经过多线程共享内存队列的方式实现异步,处在业务操做前面的线程将输出写入到队列,后面的线程从队列中读取数据进行处理;在分布式系统中,多个服务器集群经过分布式消息队列实现异步,分布式消息队列能够看做内存队列的分布式部署。

异步架构是典型的生产者消费者模式,二者不存在直接调用,只要保持数据结构不变,彼此功能实现能够随意变化而不互相影响。

异步消息队列有如下特性:

提升系统可用性:消费者服务器发生故障,数据会在消息队列服务器中存储堆积,生产者服务器能够继续处理业务请求,系统总体表现无端障。消费者服务器恢复正常后,继续处理消息队列中的数据。

加快网站响应速度:在处理业务前端的生产者服务器在处理完请求后,将数据写入消息队列,不须要等待消费者服务器处理就能够返回,响应延迟减小。

消除并发访问高峰:网站的促销活动、微博热点事件,均可能形成网站并发访问忽然增大,可能会形成整个网站负载太重,响应延迟甚至服务宕机。使用消息队列将忽然增长的访问请求数据放入消息队列中,等待消费者服务器依次处理,就不会对整个网站负载形成太大压力。

须要注意的是:使用异步方式处理业务可能会对用户体验、业务流程形成影响。

七、冗余

网站须要 7x24小时连续运行,可是服务器宕机随时可能出现故障,特别是服务器规模比较大时,出现某台服务器宕机是必然事件。要想保证在服务器宕机的状况下网站依然能够继续服务,不丢失数据,就须要必定程度的服务器冗余运行,数据冗余备份,这样当某台服务器宕机时,能够将其上的服务和数据访问转移到其余机器上。

上面说过,即便访问和负载很小的服务也必须部署至少两台服务器构成一个集群,目的就是经过冗余实现服务器高可用。数据库除了按期备份,存档保存,实现冷备份外,为了保证在线业务高可用,还须要对数据库进行主从分离,实时同步实现热备份。

为了抵御地震、海啸等不可抗力致使的网站彻底瘫痪,某些大型网站会对整个数据中心进行备份,全球范围内部署 灾备数据中心

八、自动化

发布对网站都是头等大事,许多网站故障出在发布环节,网站工程师常常加班也是由于发布不顺利。经过减小人为干预,是发布过程自动化可有效减小故障。发布过程包括诸多环节。自动化代码管理,代码版本控制、代码分支建立合并等过程自动化,开发工程师只要提交本身参与开发的产品代号,系统就会自动为其建立开发分支,后期会自动进行代码合并;自动化测试自动化安全检测;最后进行自动化部署

此外,网站在运行过程当中可能会遇到各类问题:服务器宕机、程序Bug、存储空间不足、忽然爆发的访问高峰。网站须要对线上生产环境进行自动化监控,对服务器进行心跳检测,并监控其各项性能指标和应用程序的关键数据指标。若是发现异常、超出预设的阈值,就进行自动化报警,向相关人员发送报警信息,警告故障可能会发生。在检测到故障发生后,系统会进行自动化失效转移,将失效的服务器从集群中隔离出去,再也不处理系统中的应用请求。待故障消除后,系统进行自动化失效恢复,从新启动服务器,同步数据保证数据的一致性。在网站遇到访问高峰,超出网站最大处理能力时,为了保障整个网站的安全可用,还会进行自动化降级,经过拒绝部分请求及关闭部分不重要的服务将整个系统负载降至一个安全的水平,必要时还须要自动化分配资源,将空闲资源分配给重要的服务,扩大其部署规模。

九、安全

互联网在安全架构方面也积累了许多模式:经过密码手机校验码进行身份认证;登录、交易等操做须要对网络通讯进行加密,网站服务器上存储的敏感数据如用户信息等也进行加密处理;为了防止机器人程序滥用网络资源攻击网站,网站使用验证码进行识别;对于常见的用于攻击网站的XSS攻击、SQL注入,进行编码转换等相应的处理;对于垃圾信息、敏感信息进行过滤;对交易转帐等重要操做根据交易模式和交易信息进行风险控制

架构模式应用

通常系统分为三个层次,最下层是基础服务层,提供数据库、缓存、存储、搜索等数据服务,以及其余一些基础技术服务,这些服务支撑了业务海量数据和高并发访问,是整个系统的技术基础。

中间层是平台服务和应用服务层,这些服务被分割为独立的服务模块,经过依赖调用和共享基础数据构成整个的业务基础。

最上层是API和各类应用的业务层,各类客户端和第三方应用,经过调用API集成到系统中,共同组成一个生态系统。

这些被分层和分割后的业务模块与基础技术模块分布式部署,每一个模块都部署在一组独立的服务器集群上,经过远程调用的方式进行依赖访问。 

相关文章
相关标签/搜索