(转)大型网站的架构

版权声明:欢迎转载☞ https://blog.csdn.net/qq_31142553/article/details/85527641
1、大型网站的软件系统的特色

高并发,大流量
高可用
海量数据
用户分布普遍,网络状况复杂
安全环境恶劣
需求快速变动,发布频繁
渐进式发展
2、大型网站的架构演化发展历程

一、初始阶段的网站架构

最开始网站的应用程序、数据库、文件等全部的资源都在一台服务器上。最典型的就是LAMP技术了:服务器操做系统使用Linux,应用程序使用PHP开发,数据库使用MySQL,而后部署在Apache上。

前端

 



二、应用服务和数据服务分离

随着网站业务的发展,一台服务器的性能和存储空间逐渐不能知足需求,这时就将应用和数据分离,整个网站使用三台服务器:应用服务器、文件服务器和数据库服务器。三台服务器对硬件资源的要求也各不相同:应用服务器须要更快更强大的CPU,数据库服务器须要更快的硬盘的更大的内存,文件服务器须要更大的硬盘。

数据库

 



三、使用缓存改善网站性能

网站访问特色和现实世界的财富分配同样遵循二八定律:80%的业务访问集中在20%的数据上。把大部分业务访问的小部分数据缓存在内存中,能够减小数据库的访问压力,提升整个网站的数据访问速度。

缓存能够分为两种:应用服务器上的本地缓存和分布式缓存服务器上的远程缓存。本地缓存访问速度更快,但缓存数据有限,并且会出现和应用程序争用内存的状况。远程缓存可使用集群的方式,理论上能够作到不受内存容量的限制。

浏览器

 



四、使用应用服务器集群改善网站的并发处理能力

一台应用服务器所能处理的请求有限(一台Tomcat大概六七百),企图去换更强大的服务器也终究会知足不了持续增加的业务需求,并且网站有访问高峰期和低谷期,扩展性也很差。使用集群是网站解决高并发、海量数据问题的经常使用手段。经过负载均衡调度服务器,可未来自用户浏览器的访问请求分发到应用服务器集群中的任何一台服务器上。

缓存

 



五、数据库读写分离

使用缓存后,仍有一部分读操做(缓存访问不命中、缓存过时)和所有的写操做须要访问数据库。数据库服务器也终究会由于负载压力太高而成为网站的瓶颈。

目前大部分的主流数据库都提供主从热备功能,经过配置两台数据库主从关系,能够将一台数据库服务器的数据更新同步到另外一台数据库服务器。

应用服务器在写数据的时候,访问主数据库,主数据库经过主从复制机制将数据更新同步到从数据库,这样当应用服务器读数据的时候,就能够经过从数据库得到数据。

安全

 



六、使用反向代理和CDN加速网站响应

CDN和反向代理的基本原理都是缓存,区别在于CDN部署在网络提供商的机房,使用户在请求网站服务时,能够从距离本身最近的网络提供商机房获取数据;而反向代理则部署在网站的中心机房,当用户请求到达中心机房后,首先访问的服务器是反向代理服务器,若是反向代理服务器中缓存着用户请求的资源,就将其直接返回给用户。

服务器

 



七、使用分布式文件系统和分布式数据库系统

只有在单表数据规模很是庞大的时候才使用分布式数据库。网站更经常使用的数据库拆分手段是业务分库。

网络

 



八、使用NoSQL和搜索引擎

随着网站业务愈来愈复杂,对数据存储和检索的需求也愈来愈复杂,关系型数据库逐渐不能知足需求。网站须要采用一些非关系型数据库技术如NoSQL和非数据库查询技术如搜索引擎。

架构

 



九、业务拆分

大型网站为了应对日益复杂的业务场景,经过使用分而治之的手段将整个网站按业务拆分,如购物系统将首页、商铺、订单、购物车、支付等分红不一样模块,分归不一样的团队负责,做为不一样的应用独立开发和独立部署。用得最多的是各应用经过访问同一个数据存储系统来构成一个关联的完整系统。

并发

 



十、分布式服务

既然每个应用系统都须要执行许多相同的业务操做,好比用户管理、商品管理等,那么能够将这些公用的业务提取出来,独立部署。由这些可复用的业务链接数据库,提供公用业务服务,而应用系统只须要管理用户界面,经过分布式服务调用共用业务服务完成具体业务操做。

负载均衡

3、大型网站的架构模式一、分层对网站软件系统在横向方面进行切分,分为应用层、服务层、数据层。应用层:负责具体业务和视图展现,如网站首页及搜索输入和结果展现。服务层:为应用层提供服务支持,如用户管理服务、购物车服务等。数据层:提供数据存储访问服务,如数据库、缓存、文件、搜索引擎等。二、分割在纵向方向对软件进行切分,将网站按不一样的功能和服务分割,包装成高内聚低耦合的模块单元。一方面有助于软件的开发和维护,另外一方面便于不一样模块的分布式部署,提升网站的并发处理能力和功能扩展能力。好比将软件系统的购物、论坛、搜索、广告分割成不一样的应用。三、分布式在网站应用中,经常使用的分布式方案有如下几种。分布式应用和服务:将分层和分割后的应用和服务模块分布式部署。分布式静态资源:网站的静态资源如JS、CSS、Logo图片等资源独立分布式部署。分布式数据和存储:为网站应用而生的各类NoSQL产品几乎都是分布式的。分布式计算:Hadoop及其MapReduce分布式计算框架,移动计算而不是移动数据。分布式配置:支持网站线上服务器配置实时更新。分布式锁:分布式环境下实现并发和协同。分布式文件系统:FastDFS、HDFS。四、集群提升网站高并发和高可用的能力。五、缓存提升数据访问速度。CDN反向代理本地缓存分布式缓存六、异步下降软件耦合性。提升系统可用性。加快网站相应速度。消除并发访问高峰。七、冗余服务器故障时保证数据不丢失。八、自动化发布过程自动化自动化代码管理自动化测试自动化安全检测自动化部署自动化监控自动化报警自动化失效转移自动化失效恢复自动化降级自动化分配资源九、安全经过密码和手机验证码进行身份认证。对网络传输数据进行加密。使用验证码识别机器人程序滥用网络资源攻击网站。攻击网站的XSS攻击、SQL注入进行编码转换。垃圾信息、敏感信息的过滤。交易转帐等重要操做的风险控制。4、大型网站的架构技术一览一、前端架构浏览器优化技术CDN动静分离,静态资源独立部署图片服务反向代理DNS二、应用层架构开发框架页面渲染负载均衡Session管理动态页面静态化业务拆分虚拟化服务器三、服务层架构分布式消息分布式服务分布式缓存分布式配置四、存储层架构分布式文件关系数据库NoSQL数据库数据同步五、后台架构搜索引擎数据仓库推荐系统六、数据采集与监控浏览器数据采集服务器业务数据采集服务器性能数据采集系统监控系统报警七、安全架构Web攻击数据保护八、数据中心机房架构机房架构机柜架构 服务器架构

相关文章
相关标签/搜索