网站从构建之初的不多有人问津,用户数量较少,并发量较低,到以后的拥有千万上亿用户,数万量级的高并发,之间经历了怎样的过程,小型网站架构是怎样逐步演化的,本文简单探讨下这方面的内容,主要参考《大型网站架构设计》,这本书知识点总结的仍是比较全面的。前端
网站开始是没有太多访问量的,只需一台服务器就绰绰有余了,应用程序,数据库,静态资源等所有都在一台服务器上,通常使用LAMP/LNMP(Linux+Apache/Nginx+MySQL+PHP/Python等)就能够实现本身的网站了,具体架构以下所示:mysql
随着网站业务的发展,用户访问量的增长,存储数据的增加,单台服务器逐渐不能知足需求,须要将应用服务与数据服务分离,具体以下图所示:sql
因为负责提供的服务不一样,每台服务器对硬件资源的需求是不一样的,具体以下所示:数据库
服务器类型 | 处理业务 | 所需资源 |
应用服务器 | 处理全部业务逻辑 | 更快、更多CPU |
文件服务器 | 存储用户上传文件或服务自身所需文件资源 | 更大的磁盘空间 |
数据库服务器 | 作数据缓存以及进行数据检索 | 更大的内存以及更快的磁盘 |
随着用户逐渐增多,数据库压力太大,致使访问延迟,影响用户体验,而网站性能优化最优先考虑的就是缓存;后端
网站访问特色所遵循的二八定律:80%的业务访问集中在20%的数据上;缓存
网站使用缓存又可分为应用服务器本地缓存和远程分布式缓存,远程分布式缓存通常可采用集群的方式部署,对服务器内存有比较高的要求,具体以下图所示:性能优化
随着访问量进一步增大,单台应用服务器已逐渐不能应对愈来愈多的请求链接,单台服务器硬件资源再强,也会逐渐知足不了业务高峰时的负载压力;服务器
网站解决高并发、海量数据问题最经常使用的手段仍是使用集群,作横向扩展,集群能够很好地知足伸缩性;网络
负载均衡服务器实现能够有比较多的方案,LVS,Nginx,F5等,能够和HA软件,如Heartbeat与Keepalived等一块儿使用;架构
经过应用服务器集群部署,使用负载均衡调度器,能够将用户的请求分发到多台应用服务器集群中的任一台机器上,并且根据用户访问量的多少,能够很容易增删服务器,是每台服务器负载都在可接受范围以内,具体以下图所示:
对于缓存没命中和缓存过时的数据,仍须要从数据库中来读取,而且全部写操做也都须要访问数据库,数据库压力仍是会随着访问量增长而增大;
可采用主从热备的方案,实现读写分离,例如mysql的master-slave模式,当读操做量级更高时,还可采用一主多从的方式来实现;
应用程序中的数据访问模块须要保证数据库的读写分离对应用透明;
具体以下图所示:
中国网络环境复杂,不一样地区用户访问相同网站,速度差异较大,而网站访问延时和用户流失率正相关;
主要加速网站访问速度,减轻后端服务器负载压力的方式就是使用CDN和反向代理;
CDN和反向代理的基本原理都是缓存:
CDN部署在网络提供商的机房,缓存网站的一些热点静态资源,用户在请求网站服务时,从距离本身最近的网络提供商机房获取数据,如视频、图片等;
反向代理部署在网站的中心机房,属于网站前端架构的一部分,当用户请求到达中心机房后,首先访问反向代理服务器,若是缓存着用户请求的资源(静态),就直接返回;
反向代理比较成熟的开源软件:Squid、Varnish,推荐使用Varnish,从稳定性、访问速度、并发链接数目比较来看,Varnish都更强大一点;
使用缓存的前提条件: 1. 数据访问热点不均衡,某些数据会被频繁访问; 2. 数据在某个时间段内有效,不会很快过时,不然可能形成缓存数据已经失效,产生脏读,影响结果正确性
具体以下图所示:
随着业务量的增加,网站最经常使用的数据库拆分是按业务分库,将不一样业务的数据库部署在不一样的服务器上;
通常分布式数据库是网站数据库拆分的最后手段,只有在单表规模很是庞大的时候才使用;
具体以下图所示:
全文检索对于大型网站来讲已成为不可或缺的一部分,例如Lucene、Solr等;
对非格式化的数据使用NoSQL存储更为方便,NoSQL也更适合大数据计算,较为流行的NoSQL数据库有HBase、MongoDB、CouchDB、Redis、Cassandra等;
不一样NoSQL数据库使用的存储方式不一样,例如Redis,Memcache等采用的是Key/Value键值对存储,MongoDB,CouchDB等采用的是按文档存储,一条记录中全部数据都存储在文档中,HBase,Cassandra等采用的是列存储;
具体以下图所示:
网站在发展壮大以后,每每包含了多种复杂的业务场景,使用分而治之的手段将整个网站业务分红不一样的产品线,将网站拆分红多个不一样的应用,每一个应用独立部署维护,应用之间能够经过超连接、消息队列等关联起来,具体以下图所示:
在上面业务拆分的基础上,将一些公共的业务抽取出来,独立部署,如给用户管理、商品管理等,这些可复用的业务链接数据库,提供公共服务,而应用系统只需管理用户界面;
具体以下图所示:
分布式主要仍是为了解决高并发问题,但也引入了一些其余问题: 1. 服务调用必须经过网络,可能会对性能形成较大影响; 2. 服务器越多,故障几率越大,一台服务器宕机可能会致使连锁反应(滚雪球效应),致使不少应用不可访问,网站可用性下降,设计时应尽可能避免; 3. 数据在分布式环境保持数据一致性也比较困难,分布式事务难以保证,这对网站业务正确性和业务流程可能形成影响; 4. 致使网站依赖错综复杂,开发管理维护困难;
驱动网站技术发展的主要力量永远是网站业务的发展;
网站都是逐渐演化而来的,根据须要灵活应对才是最重要的;
技术是为了业务而服务的,永远不要为了技术而技术;
转自:http://www.cnblogs.com/pflee/p/4508232.htm