本文主要分析网站后台架构中的负载均衡器,企业经常使用的硬件负载均衡器软件负载均衡器、数据库代理服务器和数据库。mysql
在大型网站部署中,负载均衡至少有三层部署。第一层为web server或者缓存代理之上的负载均衡,第二层为数据库之上的负载均衡,第三层为存储设备之上的负载均衡。web
在第一层部署中,最常使用的是硬件负载均衡器有F5 BIG-IP、Citrix NetScaler、Radware、Cisco CSS、Foundry等产品。这些产品价格不菲,高达几十万人民币。在中国大陆,采用F5Network公司的BIG-IP负载均衡交换机的网站有新浪网、雅虎、百度、搜狐、凤凰网、央视国际、中华英才网、猫扑、畅游等。以前淘宝采用 NetScaler做为其硬件负载均衡器。后来用软件负载均衡器LVS和HAproxy混合使用来代替硬件负载均衡器。硬件负载均衡器能够提供OSI参考模型的第四/七层进行负载均衡。在第七层实现负载均衡的原理是,经过检查流经的HTTP报头,根据报头内的信息来执行负载均衡任务。在第四层(网络层)实现负载均衡的DR模式的原理是,经过更改请求包的目的MAC地址来进行负载均衡。算法
在第一层部署中,最经常使用的软件负载均衡器为LVS(LinuxVirtual Server)和HAproxy。其中LVS采用基于IP负载均衡技术和基于内容请求分发技术。最经常使用的LVS负载均衡技术为DR负载均衡。sql
在第二层部署中,最经常使用的为mysql-proxy(后端部署必须为MySQL数据库),该代理服务器能够监测、分析或改变客户端的通讯。最经常使用途为负载均衡,读写分离等。数据库
在第三层部署中,最经常使用的存储设备都要作RAID,其中RAID0便为最基本的存储层的负载均衡。RAID0经过分带技术,将数据分割,而后并行的读写于各个磁盘上。这样实现底层存储一级的负载均衡。后端
LVS(LinuxVirtual Server)是由章文嵩博士主导开发的一款开源软件,能够实现Linux平台下的基于网络层的负载均衡软件。典型的基本架构图如图6-2-1所示。缓存
图6-2-1服务器
LVS集群采用IP负载均衡技术和基于内容请求分发技术。网络
如图6-2-1所示,LVS集群采用基于IP负载均衡技术和基于内容请求分发技术。当客户端有请求时,首先将请求包传送到Load Balance,而后Load Balance从后面的Real Servers中按照必定的算法策略选取一台Real Server,好比Real Server1,而后把请求包发送给Real Server1进行处理。对全部用户而言,面向用户的服务器端IP地址,只有一台,称之为VirtualIP Address。架构
VS/NAT、 VS/TUN 和VS/DR技术是LVS集群中实现的三种IP负载均衡技术。
VS/NAT(VirtualServer via Network Address Translation)技术,主要经过网络地址转换,将一组服务器构成一个高性能的、高可用的虚拟服务器。NAT的工做原理是当内部网络中的主机要访问Internet或被Internet访问时,就须要采用网络地址转换NAT,将内部地址转化为Internet上可用的外部地址。NAT的工做原理是报文头(目标地址、源地址和端口等)被正确改写后,客户端相信他们链接到了一个IP地址,而不一样的IP地址服务器组也认为他们与客户直接相连的。由此,能够用NAT方法将不一样IP地址的并行网络服务变成一个IP地址上的虚拟服务。VS/NAT的体系结构如图6-2-1-1所示。
图6-2-1-1
客户端访问服务器的请求包和响应包变化状况以下所示:
访问Web服务的报文可能有如下的源地址和目标地址:
SOURCE
202.100.1.2:3456
DEST
202.103.106.5:80
调度器从调度列表中选出一台服务器,例如是172.16.0.3:8000。该报文会被改写为以下地址,并将它发送给选出的服务器。
SOURCE
202.100.1.2:3456
DEST
172.16.0.3:8000
从服务器返回到调度器的响应报文以下:
SOURCE
172.16.0.3:8000
DEST
202.100.1.2:3456
响应报文的源地址会被改写为虚拟服务的地址,再将报文发送给客户:
SOURCE
202.103.106.5:80
DEST
202.100.1.2:3456
这样,客户认为是从202.103.106.5:80服务获得正确的响应,而不会知道该请求是服务器172.16.0.2仍是服务器172.16.0.3处理的。
VS/TUN 的工做原理:它的链接调度和管理与VS/NAT中的同样,只是它的报文转发方法不一样。调度器根据各个服务器的负载状况,动态地选择一台服务器,将请求报文封装在另外一个IP报文中,再将封装后的IP报文转发给选出的服务器;服务器收到报文后,先将报文解封得到原来目标地址为VIP的报文,服务器发现VIP地址被配置在本地的IP隧道设备上,因此就处理这个请求,而后根据路由表将响应报文直接返回给客户。如图6-2-1-2所示。
图6-2-1-2
在VS/DR中,调度器根据各个服务器的负载状况,动态地选择一台服务器,不修改也不封装IP报文,而是将数据帧的MAC地址改成选出服务器的MAC地址,再将修改后的数据帧在与服务器组的局域网上发送。由于数据帧的MAC地址是选出的服务器,因此服务器确定能够收到这个数据帧,从中能够得到该IP报文。当服务器发现报文的目标地址VIP是在本地的网络设备上,服务器处理这个报文,而后根据路由表将响应报文直接返回给客户。如图6-2-1-3所示。
图6-2-1-3
前面几节,介绍了LVS的三种基于IP的负载均衡技术,下面简单介绍一下调度算法。调度算法的目的是解决如何合理有效的从LVS后端的RealServers中,选择一个RealServer来对请求包进行处理。在整个LVS项目中,共给出八种调度算法,主要有:
(1)轮询调度。主要指按顺序从RealServers中选择一台RealServers。
(2) 加权轮叫调度。给Real Servers设置必定权值,进行调度。
(3)最小链接调度。按照RealServers的链接状况进行调度。
(4)加权最小链接。根据设置的权值和现有的链接数进行调度。
(5)基于局部性的最小链接。主要用于增大Cache命中。
(6)代复制的基于局部性的最小链接。
(7)目标地址散列调度。
(8)源地址散列调度。
在上述八种调度算法中,最经常使用的调度算法是轮询调度。
在大型互联网站的数据库部署中,部署最多的数据库为MySQL。随着MySQL中Innodb存储引擎对事物的支持,MySQL在互联网公司部署中,应用量愈来愈多。典型应用MySQL的公司有Google、Baidu、Taobao等大型互联网公司。MySQL的优点在于其高扩展性和价格优点等。实际上,MySQL能够免费应用于企业级的部署中。
在MySQL复制方式部署中,有两种部署方式:同步复制和异步复制。同步复制采用NDB 存储引擎,异步复制须要使用mysql-proxy结合master-slave实现。
异步复制主要为了解决读写分离的问题。由于用户对网站的访问有读操做多,写操做少的特色。甚至像taobao.com这样的网站读写比例高达10:1,因此采用MySQL-Proxy结合主从异步复制实现读写分离是很是重要的增快访问速度的方法。这样若是有更高的用户访问需求,经过增长slave机器,不会对现有系统提供的服务产生影响而实现很好的、很灵活的业务扩展。
mysql-proxy是一个MySQL的代理服务器,用户的请求先发向mysql-proxy,而后mysql-proxy对用户的数据包进行分析,从下一层的mysql 数据库中选择一台数据库,将用户的请求包交给mysql处理。
首先MySQL Proxy 以服务器的身份接受客户端的请求,根据相应配置对这些请求进行分析处理,而后以客户端的身份转发给相应的后端数据库服务器,再接受服务器的信息,而后返回给客户端。因此MySQL Proxy须要同时实现客户端和服务器的协议。因为要对客户端发送过来的SQL语句进行分析,还须要包含一个SQL解析器。MySQL Proxy经过使用lua脚本,来实现复杂的链接控制和过滤,从而实现读写分离和负载平衡。因此部署MySQL-Proxy须要安装运行Lua语言的环境。典型的MySQL-Proxy应用为实现读写分离,如图6-3-1所示。
图6-3-1
MySQL主从复制(Master-Slave Replication)是经过设置在Master MySQL上的binlog(使其处于打开状态),Slave MySQL上经过一个I/O线程从Master MySQL上读取binlog,而后传输到Slave MySQL的中继日志中,而后Slave MySQL的SQL线程从中继日志中读取中继日志,而后应用到Slave MySQL的数据库中。这样实现了数据库的复制功能。原理如图6-3-2所示:
图6-3-2
MySQL主从复制的做用以下:
(1) 能够做为一种备份机制。
(2) 能够用来作读写分离。
经过使用MySQL-Proxy来做为代理服务器,配置MySQL Proxy,将全部的写操做,分流到master MySQL上,全部的读操做分流到slave MySQLs。
这样就实现了读写分离。若是有新的访问需求,只需添加slave MySQL机器来解决问题。因此这样的结构扩展能力很是好。如图6-3-3所示。
图6-3-3
本文主要论述了负载均衡在大型网站后台架构中的应用。主要分析了应用层的软件负载均衡器LVS的三种负载均衡算法,简单介绍了LVS的八种调度算法。详细分析了MySQL的主从复制和读写分离的实现机制。给出了高可用网站后台的部署中解决负载均衡的方案。
声明:本文档能够随意更改,但必须署名原做者
做者:凤凰舞者 qq:578989855