大型网站架构模式

学习本文章须要弄懂的问题:前端

1.模式的定义数据库

2.分层:什么是分层?请举个例子,分层有什么好处?分层必须注意的事项?后端

3.分割:分割的定义和好处?浏览器

4.分布式的定义?分布式所面临的问题?分布式方案有哪些?各有什么优势?缓存

5.集群的定义?集群的优势有那些?安全

6.缓存的定义?缓存的优势?使用缓存的条件?缓存的种类?服务器

7.什么是异步?异步的优势和缺点?网络

8.冗余的必要性?数据结构

9.发布过程自动化的流程?运维自动化的机制?多线程

10.保证安全经常使用的手段,列举一些?

 

关于什么是模式,这个来自建筑学的词汇是这样定义的:“每个模式描述了一个在咱们周围不断重复发生的问题及该问题解决方案的核心。

这样,你就能一次又一次地使用该方案而没必要作重复工做”。模式的关键在于模式地可重复性,问题场景的可重复性带来解决方案的可重复性。

 

也许互联网产品不是随便复制就能成功的,创新的产品更能为用户创造价值。

可是网站架构却有一些共同的模式,这些模式已经被许多大型网站一再验证,经过对这些模式的学习,

咱们能够掌握大型网站架构的通常思路和解决方案,以指导咱们的架构设计。

 

为了解决大型网站面临的高并发访问、海量数据处理、高可靠运行等一系列问题与挑战,

大型互联网公司在实践中提出了许多解决方案,以实现网站高性能、高可用、易伸缩、可扩展、安全等各类技术架构目标。

这些解决方案又被更多网站重复使用,从而逐渐造成大型网站架构模式。

下面会介绍一些大型网站经常使用的模式。

 

1.分层

分层是企业应用系统中最多见的一种架构模式,

定义:)将系统在横向维度上切分红几个部分,每一个部分负责一部分相对比较单一的职责,而后经过上层对下层的依赖组成一个完整的系统

分层结构在计算机世界中无处不在,网络的七层通讯协议是一种分层结构;计算机硬件、操做系统、应用软件也能够看作是一种分层结构。

在大型网站架构中也采用分层结构,将网站架构系统分为应用层、服务层、数据层。

网站分层架构
应用层         负责具体业务和视图展现,如网站首页及搜索输入和结果展现
服务层         为应用层提供服务支持,如用户管理服务,购物车服务等
数据层         提供数据存储访问,如数据库、缓存、文件、搜索引擎等

 

 

 

 

 

分层的好处:)经过分层,能够更好的将一个庞大的软件系统切分红不一样的部分,便于分工合做开发和维护;

各层之间具备必定的独立性,只维持调用接口不变,各层能够根据具体问题独立演化发展而不须要其余层必须作出相应调整。

 

分层的挑战:)可是分层架构也有一些挑战,就是必须合理规划层次边界和接口在开发过程当中,严格遵循分层架构的约束,

禁止跨层次的调用(应用层直接调用数据层)及逆向调用(数据层调用服务层,或者服务层调用应用层)。

 

在实践中,大的分层结构内部还能够继续分层,如应用层能够再细分为视图层(美工负责)和业务逻辑层(工程师负责);

服务层也能够细分为数据接口层(适配各类输入和输出的数据格式)和逻辑处理层。

 

分层架构是逻辑上的,在物理部署上,三层结构能够部署在同一台物理机器上,可是随着网站业务的发展,必然须要对已经分层的模块分离部署,

即三层结构分别部署在不一样的服务器上,使网站有愈来愈多的计算资源以应对愈来愈多的客户访问。

 

虽然分层架构模式最初的目的是规划软件清晰的逻辑结构便于开发维护,但在网站的发展过程当中,分层式结构对网站支持高并发向分布式方向发展相当重要。

所以在网站规模还很小的时候就应该采用分层的架构,这样未来网站作大时才能更好地应对。

 

 

2.分割

若是说分层是将软件在横向方面进行切分,那么分割就是在纵向方面对软件进行切分

分割的定义:)分割就在纵向上根据业务的需求将一个服务分红多个更小更细的服务。

网站越大功能越复杂,服务和数据处理的种类也越多,将这些不一样的服务和功能分割开来,包装成高内聚低耦合的模块单元

分割的优势:)一方面有助于网站的开发和维护;另外一方面,便于不一样模块的分布式部署,提升网站的并发能力和功能扩展能力。

 

大型网站分割的颗粒度可能会很小。好比在应用层,将不一样业务进行分割,

例如将购物、论坛、搜索、广告分割成不一样的应用,由独立的团队负责,部署在不一样的服务器上;

在同一个应用内部,若是规模庞大业务复杂,会继续进行分割,

好比购物业务,能够进一步分割成机票酒店业务、3C业务、小商品业务等更小的颗粒度。

而即便在这个颗粒度上,仍是能够继续分割成首页、搜索列表、商品详情等模块,这些模块无论在逻辑上仍是物理部署上,均可以是独立的。

一样在服务层也能够根据须要将服务分割成合适的模块。

 

 

3.分布式

对于大型网站,分层和分割的一个主要目的时为了切分后的模块便于分布式的部署,即(定义:)将不一样的模块部署在不一样的机器上,经过远程调用协同工做。

分布式意味着可使用更多的计算机完成一样的功能,计算机越多,CPU、内层、存储资源也就越多,

可以处理的并发访问和数据量就越大,进而可以为更多的用户提供服务。

 

分布式部署面临的四个问题:)但分布式在解决网站高并发问题的同时也带来了其余问题。

首先分布式意味着服务调用必须经过网络,这可能会对性能形成比较严重的影响;

其次服务器越多,服务器宕机的几率也就越大,一台服务器宕机形成的服务不可用可能会致使不少应用不可访问,使网站可用性下降;

另外数据在分布式的环境中保持数据一致性也很是困难,分布式事务也难以保证,这对网站业务正确性和业务流程有可能形成很大影响;

分布式还致使网站依赖错综复杂,开发管理维护困难

所以,分布式设计要根据具体状况量力而行,切莫为了分布式而分布式。

 

在网站应用中,经常使用的分布式方案有如下几种。

分布式应用和服务:将分层和分割后的应用和和服务分布式部署,除了能够改变网站性能和并发性、加快开发和发布速度、减小数据库链接资源消耗外;

还可使不一样应用复用共同的服务,便于业务功能扩展。

 

分布式静态资源:网站的静态资源如JS,CSS,Logo图片等资源独立分布式部署,并采用独立的域名,即人们常说的动静分离。

静态资源分布式部署能够减轻应用服务器的负载压力;经过使用独立域名加快浏览器并发加载的速度;

由负责用户体验的团队进行开发维护有利于网站分工合做,使不一样技术工种术业有专攻。

 

分布式数据和存储:大型网站须要处理以P为单位的海量数据,单台计算机没法提供如此大的空间,这些数据须要分布式存储。

除了对传统的关系数据库进行分布式部署外,为网站应用而生的各类NoSQL几乎都是分布式。

 

分布式计算:严格说来,应用、服务、实时数据处理都是计算,网站除了要处理这些在线业务,

还有很大一部分用户没有直观感觉的后台业务要处理,包括搜索引擎的索引构建、数据仓库的数据分析统计等。

这些业务的计算规模很是庞大,目前网站广泛使用Hadoop及其MapReduce分布式计算框架进行此类批处理计算,

其特色是移动计算而不是移动数据,将计算程序分发到数据所在的位置以加速计算和分布式计算。

 

此外,还有能够支持网站线上服务器配置实时更新的分布式配置;分布式环境下实现并发和协同的分布式锁;支持云存储的分布式文件系统等。

 

 

4.集群

使用分布式虽然已经将分层和分割后的模块独立部署,可是对用户访问集中的模块·(好比网站的首页),

还须要将独立部署的服务器集群化,即(定义:)多台服务器部署相同的应用构成一个集群,经过负载均衡设备共同对外提供服务。

 

由于服务器集群有更多服务器提供相同服务,所以能够提供更好的并发特性,当有更多用户访问的时候,只须要向集群中加入新的机器便可。

同时由于一个应用由多台服务器提供,当某台机器发生故障时,负载均衡设备或者系统的失效转移机制会将请求转发到集群中其余服务器上,是服务器故障不影响用户使用。

因此在网站应用中,即便是访问量很小的分布式应用和服务,也至少要部署两台服务器构成一个小的集群,目的就是提升系统的可用性。

 

 

5.缓存

缓存的定义:)缓存就是将数据存放在距离计算最近的位置以加快处理速度。

缓存是改善软件性能的第一手段,现代CPU愈来愈快的一个重要因素就是使用了缓存。在复杂的软件设计中,缓存几乎无处不在。

大型网站架构在不少方面都是用了缓存设计。

 

常见的缓存种类有如下几种。

CDN:即内容网络分发,部署在距离终端用户最近的网络服务商,用户的网络请求老是先到达它的网络服务商那里。

在这里缓存一些网站的静态资源(较少变化的数据),能够就近以最快速度返回给用户,如视频网站和门户网站会将用户访问量最大的热点内容还存在CDN。

 

反向代理:反向代理属于网站前端架构的一部分即在部署网站的前端,当用户请求到达网站的数据中心时,

最早访问到的就是反向代理服务器,这里缓存网站的静态资源,无需将请求继续转发给应用服务器就能返回给用户。

 

本地缓存:在应用服务器本地缓存着热点数据,应用服务器能够在本机内存中直接访问数据,而无须访问数据库。

 

分布式缓存:大型网站的数量很是庞大,即只缓存一小部分,须要的内存空间也不是单机能承受的,

因此除了本地缓存还须要分布式缓存,将数据缓存在一个专门的分布式缓存集群中,应用程序经过网络通讯访问缓存数据。

 

使用缓存有两个前提条件,一是数据访问热点不均衡,某些数据会被更频繁的访问,这数据应该放在缓存中;

二是数据在某个时间段内有效,不会很快过时,不然缓存的数据就会由于已经失效而产生脏读影响结果的正确性。

 

网站应用中,(优势:)缓存除了能够加快应用访问速度,还能够减轻后端应用和数据存储的负载压力,

这一点对网站数据库架构相当重要,网站的数据库几乎是按照有缓存的前提进行负载能力设计的。

 

 

 

6.异步

计算机软件发展的一个重要目标和驱动力是下降软件耦合性事物之间直接关系越少,就越少被彼此影响,越能够独立发展

大型网站架构中,系统解耦合的手段除了前面提到的分层、分割、分布等,还有一个重要手段是异步,

概念:)业务之间的消息传递不是同步调用,而是将一个业务操做分红多个阶段,每一个阶段之间经过共享数据的方式异步执行进行协做。

 

在单一服务器内部可经过多线程共享内存队列的方式实现异步,处在业务操做前面的线程将输出写入到队列,后面的线程从队列中读取数据进行处理;

在分布式系统中,多个分布式集群经过分布式消息队列实现异步,分布式消息队列能够看做内存队列的分布式部署。

 

异步架构是典型的生产者消费者模式,二者不存在直接调用,只要保持数据结构不变,彼此功能实现能够随意变化而不互相影响,这对网站扩展新功能很是便利。

除此以外,使用异步消息队列还有以下特性。

 

提升系统可用性。消费者服务器发生故障,数据会在消息队列服务器中存储堆积,生产者服务器能够继续处理业务请求,系统总体表现无端障。

消费者服务器恢复正常后,继续处理消息队列中的数据。

 

加快网站响应速度。处在业务处理前端的生产者服务器在处理完业务请求后,将数据写入消息队列,,不须要等待消费者服务器处理就能够返回,响应延迟减小。

 

消除并发访问高峰。用户访问网站是随机的,存在访问高峰和低谷,即便网站按照通常访问高峰进行规划和部署,也依然会出现突发事件,

好比购物网站的促销活动,微博上的热点事件,都会形成网站并发访问忽然增大,这可能会形成整个网站负载太重,响应延迟,严重时甚至出现服务宕机的状况。

使用消息队列将忽然增大的访问请求数据放入消息队列中,等待消费者服务器依次处理,就不会对网站负载形成太大压力。

 

但须要注意的是,使用异步方式处理业务可能会对用户体验、业务流程形成影响,须要网站产品设计方面的支持。

 

 

 

7.冗余

网站须要7X24小时连续运行,但服务器随时可能出现故障,特别是服务器规模比较大·时,出现某台服务器宕机是必然事件。

要想保证在服务器宕机的状况下网站依然能够继续服务,不丢失数据,就须要必定的服务器冗余运行,数据冗余备份,

这样当某台服务器宕机时,能够将其上的服务和数据访问转移到其余机器上。(为何要进行冗余?

 

访问和负载很小的服务也必须部署至少两台服务器构成一个集群,其目的就是经过冗余实现服务高可用。

数据库除了按期备份,存档保存,实现冷备份外,为了保证在线业务高可用,还须要对数据库进行主从分离,实时同步热备份。

 

为了抵御地震、海啸等不可抗力致使的网站彻底瘫痪,某些大型网站会对整个数据中心进行备份,

全球范围内部署灾备数据中心。网站程序和数据实时同步到多个灾备数据中心。

 

 

8.自动化

在无人值守的状况下网站能够正常运行,一切均可以自动化是网站的理想状态。目前大型网站的自动化架构设计主要集中在发布运维方面。

 

发布对网站都是头等大事,许多网站故障出在发布环节,网站工程师常常加班也是由于发布不顺。

经过减小人为干预,使发布过程自动化可有效减小故障。发布过程包括诸多环节。(发布过程自动化的流程?

自动化代码管理,代码分支建立合并等过程自动化,开发工程师只要提交本身参与开发的产品代号,系统就会自动为其建立开发分支,后期会自动进行代码合并;

自动化测试,代码开发完成,提交测试后,系统自动将代码部署到测试环境,启动自动化测试进行测试,向相关人员发送测试报告,向系统反馈测试结果;

自动化安全检测,安全工具经过对代码进行静态安全扫描及部署到安全测试环境进行安全攻击测试,评估其安全性。

最后进行自动化部署,将工程代码自动部署到线上生产环境。

此外,网站在运行过程当中可能会遇到各类问题:服务器宕机、程序Bug、存储空间不足、忽然爆发的访问高峰。(自动化运维的机制?

网站须要对线上生产环境进行自动化监控,对服务器进行心跳检测,并监控其各项性能指标和应用程序的关键数据指标。

若是发现异常、超出预设的阈值,就进行自动化报警,向相关人员发送报警信息,警告故障可能发生。

在检测到故障发生后,系统会进行自动化失效转移,将失效的服务器从集群中隔离出去,不在处理系统中的应用请求。

待故障消除后,系统进行自动化失效恢复,从新启动服务,同步数据保证数据的一致性。

在网站遇到访问高峰,超出网站最大处理能力时,为了保证整个网站的安全可用,还会进行自动化降级

经过拒绝部分请求及关闭部分不重要的服务将系统的负载降至一个安全的水平,必要时,还须要自动化分配资源,将空闲资源分配给重要的服务,扩大其部署规模。

 

 

9.安全

互联网的开放特性使得其从诞生起就面对巨大的安全挑战,网站在安全架构方面也积累了许多模式:

经过密码手机校验码进行身份验证;

登录、交易等操做须要对网络通讯进行加密,网站服务器上存储敏感数据如用户信息等也进行加密处理;

为了防止机器人程序滥用网络资源攻击网站,网站使用验证码进行识别;

对于常见的用于攻击网站的XSS攻击、SQL注入,进行编码转换等相应处理;

对于垃圾信息、敏感信息进行过滤

对交易转帐等重要操做根据交易模式和交易信息进行风险控制

相关文章
相关标签/搜索