《大型网站技术架构核心原理与案例分析》读书笔记(二)

2.1 网站架构模式

为了解决大型网站面临的高并发访问,海量数据处理,高可靠运行等一系列问题与挑战,大型互联网公司在实践中提出了许多解决方案,以实现网站高性能,高可用,易伸缩,可扩展,安全等各类技术架构目标。这些解决方案又被更多网站重复使用,从而逐渐造成大型网站架构模式。前端

2.1.1 分层

分层是企业应用系统中最多见的一种架构模式,将系统在横向维度上切分红几个部分,每一个部分负责一部分相对比较简单的职责,而后经过上层对下层的依赖和调用组成一个完整的系统。数据库

分层结构在计算机世界中无处不在,网络的7层通讯协议是一种分层结构;计算机硬件、操做系统、应用软件也能够看做是一种分层结构。在大型网站架构中也采用分层结构,将网站软件系统分为应用层、服务层、数据层,如图表2.1所示。浏览器

分层的优势:更好的将一个庞大的软件系统切分红不一样的部分,便于分工合做开发和维护;各层之间具备必定的独立性,只有维持调用接口不变,各层能够根据具体问题独立演化发展而不须要其余层必须做出相应的调整。缓存

遵循原则:必须合理规划层次边界和接口,在开发过程当中,严格遵循分层架构的约束,禁止跨层次调用及逆向调用。安全

分层架构师逻辑上的,在物理部署上,三层结构能够部署在同一个物理机器上,但随着网站业务的发展,必然须要对已经分层的模块分离部署,即三层结构分别部署在不一样的服务器上,使网站拥有更多的计算资源以应对愈来愈多的用户访问。服务器

2.1.2 分割

若是说分层是将软件在横向方面进行切分,那么分割就是在纵向方面对软件进行切分。网络

网站越大,功能越复杂,服务和数据处理的种类也越多,讲这些不一样的功能和服务分割开来,包装成高内聚低耦合的模块单元,一方面有助于软件的开发和维护;另外一方面,便于不一样模块的分布式部署,提升网站的并发处理能力和功能扩展能力。数据结构

大型网站的分割力度可能会很小。好比在应用层,将不一样业务进行分割,例如将购物,论坛,搜索,广告分割成不一样的应用,由独立的团队负责,部署在不一样的服务器上。多线程

2.1.3 分布式

对于大型网站,分层和分割的一个主要目的是为了切分后的模块便于分布式部署,即将不一样模块部署在不一样的服务器上,经过远程调用协同工做。分布式意味着可使用更多的计算机完成一样的功能,计算机越多,CPU、内存、存储资源也就越多,可以处理的并发访问和数据量就越大,进而可以为更多的用户提供服务。架构

经常使用的分布式方案有如下几种。

分布式应用和服务

将分层 分割后的应用和服务模块分布式部署,除了能够改善网站性能和并发性、加快开发和发布速度、减小数据库链接资源消耗外;还可使不一样应用复用共同的服务,便于业务功能拓展。

分布式静态资源

网站的静态资源如JS,CSS,Logo图片等资源独立分布式部署,并采用独立的域名,即人们常说的动静分离。静态资源分布式部署能够减轻应用服务器的负载压力;经过使用独立域名加快浏览器并发加载的速度;由负责用户体验的团队进行开发维护有利于网站分工合做,使不一样技术工种术业有专攻。

分布式数据存储

大型网站须要处理以P为单位的海量数据,单台计算机没法提供如此大的存储空间,这些数据须要分布式存储。除了对传统的关系数据库进行分布式部署外,为网站应用而生的各类NoSQL产品几乎都是分布式的。

分布式计算

严格说来,应用、服务、实时数据处理都是计算,网站除了要处理这些在线业务,还有很大一部分用户没有直观感觉的后台业务要处理,包括搜索引擎的索引构建、数据仓库的数据分析统计等。这些业务的计算规模很是庞大,目前网站广泛使用Hadoop及其MapReduce分布式计算框架进行此类批处理计算,其特色是移动计算和不是移动数据,将计算程序分发到数据所在位置以加速计算和分布式计算。

此外,还有能够支持现场服务期配置实时更新的分布式配置;分布式环境下实现并发和协同的分布式锁;支持云存储的分布式文件系统等。

2.1.4 集群

使用分布式虽然已经将分层和分割后的模块独立部署,可是对于用户访问集中地模块,还须要将独立部署的服务器集群化,即多台服务器部署相同应用构成一个集群,经过负载均衡设备共同对外提供服务。

由于服务器集群有更多服务器提供相同的服务,所以能够提供更好的并发特性,当有更多用户访问的时候,只须要想集群中加入新的及其便可。同事由于一个应用由多台服务器提供,当某台服务器发生故障时,负载均衡设备或者系统的失效转移机制会将请求转发到集群中其余服务器上,是服务器故障不影响用户使用。因此在网站应用中,及时是访问量很小的分布式应用和服务,也至少要部署两台服务器构成一个小的集群,目的就是提升系统的可用性。

2.1.5 缓存

缓存就是将数据存放在距离计算最近的位置以加快处理速度。缓存是改啥软件性能的第一手段,如今CPU愈来愈快的一个重要因素就是使用了更多的缓存,在复杂的软件设计中,缓存几乎是无处不在。大型网站架构设计在不少方面都使用了缓存设计。

CDN

内容分发网络,部署在距离终端用户最近的网络服务商,用户的网络请求老是先到达他的网络服务商里,在这里缓存网站的一些静态资源,能够就近以最快速度返回给用户,如视频网站和门户网站会将用户访问量大的热点内容缓存在CDN。

反向代理

反向代理数网站前端架构的一部分,部署在网站的前端,当用户请求到达网站的数据中心时,最早访问到的就是反向代理服务器,这里缓存网站的静态资源,无需将请求继续转发给应用服务器就能返回给用户。

本地缓存

在应用服务器本地缓存着热点数据,应用程序能够再本机内存中直接访问数据,而无需访问数据库。

分布式缓存

大型网站的数据量很是庞大,即便只缓存一小部分,须要的内存空间也不是单机能承受的,因此除了本地缓存,还须要分布式缓存,将数据缓存在一个专门的分布式缓存集群中,应用程序经过网络通讯访问缓存数据。

2.1.6 异步

异步是下降软件耦合性的一个手段。业务之间传递消息不是同步调用,而是将一个业务操做分红多个阶段,每一个阶段之间经过共享数据的方式异步执行进行协做。

在单一服务器内部可经过多线程共享内存队列的方式实现异步,处在业务操做前面的线程将输出写入到队列,后面的线程从队列中读取数据进行处理;在分布式系统中,多个服务器集群经过分布式消息队列实现异步,分布式消息队列能够看做内存队列的分布式部署。

异步架构是典型的生产者消费者模式,二者不存在直接调用,只要保持数据结构不变,彼此功能实现能够随意变化而不互相影响,这对网站扩展新功能很是便利。除此以外,使用异步消息队列还有以下的特性。

提升系统可用性

消费者服务器发生故障,数据会在消息队列服务器中存储堆积,生产者服务器能够继续处理业务请求,系统总体表现无端障。消费者服务器恢复正常后,继续处理消息队列中的数据。

加快网站响应速度

处在业务处理前端的生产者服务器在处理完业务请求后,将数据写入消息队列,不须要等待消费者服务器处理就能够返回,响应延迟减小。

消除并发访问高峰

用户访问网站是随机的,存在访问高峰和低谷,即便网站按照通常访问高峰进行规划和部署,也依然会出现突发事件,好比购物网站的促销互动,微博上的热点事件,都会形成网站并发访问忽然增大,这可能会形成整个网站负载太重,响应延迟,严重时甚至会出现服务宕机的状况。使用消息队列将忽然增长的访问请求数据放入消息队列中,等待消费者服务器依次处理,就不会对整个网站负载形成太大的压力。

但须要注意的是,使用异步方式处理业务可能会对用户体验,业务流程形成影响,须要网站产品设计方面的支持。

2.1.7 冗余

网站须要7*24小时连续运行,为了保证在服务器宕机的状况下依然能够继续提供服务,不丢失数据,就须要必定程度的服务器冗余运行,数据冗余备份,这样当某台服务器宕机时,能够将其上的服务和数据访问转移到其余机器上。

访问和负载很小的服务也必须部署至少两台服务器构成的一个集群,其目的就是经过冗余实现服务高可用。数据库除了按期备份,存档保存,实现冷备份外,为了保证在线业务高可用,还须要对数据库进行主从分离,实时同步实现热备份。

为了抵御地震,海啸等不可抗力致使的网站彻底瘫痪,某些大型网站会对整个数据中心进行备份,全球范围内部署灾备数据中心。网站程序和数据实时同步到多个灾备数据中心。

2.1.8 自动化

在无人值守的状况下网站能够正常运行,一切均可以自动化是网站的理想状态。目前大型网站的自动化架构设计主要集中在发布运维方面。

发布对网站是头等大事,须要网站故障出在发布缓解,网站工程师常常加班也是由于发布不顺利,经过减小认为干预,使发布过程自动化,自动化代码管理,自动化测试,自动化安全检测,自动化部署,将工程代码自动部署到线上生产环境。

发布以后,线上生产环境也须要进行自动化处理。主要为自动化监控,自动化报警,自动化失效转移,自动化失效恢复,自动化降级,自动化分配资源等手段。

2.1.9 安全

互联网的开放特性使得从诞生起就面对巨大的安全挑战,网站在安全架构方面也积累了许多模式:经过密码和手机校验码进行身份测试;登陆,交易等操做须要对网络通讯进行加密,网站服务器上存储的敏感数如用户信息等也进行加密处理;为了防止机器人程序滥用网络资源攻击网站,网站使用验证码进行识别;对于常见的永华攻击网站的XSS攻击,SQL注入,进行编码转换等相应处理;对于垃圾信息,敏感信息进行过滤;对交易转帐等重要操做根据交易模式和交易信息进行风险控制。

2.2 小结

经过本章的学习,了解到了网站的主要架构模式。许多但愿经过模式一劳永逸的解决本身的问题。正确的使用模式能够更好的利用业界和前人的思想和实践,用更少的实践开发出更好的系统,使设计者的水平也达到更高的境界。可是模式受其使用场景的限制,对系统的要求和约束也不少,不恰当的使用模式只会画虎不成反类犬,不但没有解决原来的老问题,反而带来了更棘手的问题。

山寨与创新最大的区别不在因而否抄袭,是否模仿,而在于对问题和需求是否真正理解与把握。