架构设计:负载均衡层设计方案(8)——负载均衡层总结上篇

一、概述

很明显经过前面的八篇文章的介绍,并不能覆盖负载均衡层的全部技术,可是能够做为一个引子,告诉各位读者一个学习和使用负载均衡技术的思路。虽而后面咱们将转向“业务层”和“业务通讯”层的介绍,可是对负载均衡层的介绍也不会中止。在后续的时间咱们将穿插进行负载均衡层的新文章的发布,包括Nginx技术的再介绍、HaProxy、LVS新的使用场景等等。javascript

这篇文章咱们对前面的知识点进行总结,并有意进行一些扩展,以便于各位读者找到新的学习思路。css

二、负载均衡层的核心思想

2-一、一致性哈希与Key的选取

这里写图片描述

《架构设计:负载均衡层设计方案(2)——Nginx安装》 文章中咱们详细介绍了一致性哈希算法。而且强调了一致性Hash算法是现代系统架构中的最关键算法之一,在分布式计算系统、分布式存储系统、数据分析等众多领域中普遍应用。针对个人博文,在负载均衡层、业务通讯层、数据存储层都会有它的身影。java

一致性算法的核心是:node

  • 使用对象的某一个属性(这个属性能够是服务器的IP地址、开放端口 还能够是用户名、某种加密串。凡是你能够想到的有散列意义的属性),算出一个整数,让其分布在0 至 2的32次方 范围内。
  • 一台服务器的某个或者某一些属性固然也能够进行hash计算,而且根据计算分布在这个圆环上的某一个点,也就是图中圆环上的蓝色点。
  • 一个处理请求到来时,根据这个请求的某一个或者某一些属性进行hash计算,而且根据计算记过度布在这个圆环上的某一个点上。也就是上图圆环上的黄色点。
  • 咱们约定落在某一个蓝点A左侧和蓝点B右侧的黄色点所表明的请求,都有蓝点A所表明的服务器进行处理,这样就完成解决了“谁来处理”的问题。在蓝色点稳定存在的前提下,来自于同一个Hash约定的请求所落在的位置都是同样的,这就保证了服务处理映射的稳定性。
  • 当某一个蓝色点因为某种缘由下线,其所影响到的黄色点也是有限的。即下一次客户端的请求将由其余的蓝色点所表明的服务器进行处理。

2-二、轮询与权

这里写图片描述

  • 不加权轮询,就是主控节点(任务来源点)在不考虑目标节点的任何因素的状况下(例如CPU性能、磁盘性能、网络性能),按照目标节点的列表顺序将任务依次分配下去。这是最简单的轮询,也是对主控节点实现复杂性要求最低的轮询。我以前的博文《架构设计:负载均衡层设计方案(2)——Nginx安装》《架构设计:负载均衡层设计方案(4)——LVS原理》 都对这种最简轮询进行了介绍:例如LVS中的“rr”参数。nginx

  • 加权轮询中的“权”,您能够当作是“轮询”依据的意思。“权”能够是不少种可能,能够是目标机器的性能量化值、能够是一个固定的数字(按照固定数字加权)、能够是目标节点的网络速度。例如LVS中的“lc”参数,就是指按照目标机器,如今已有的“链接”数量进行加权:链接数量越少,越有更大的概率得到这个任务的处理权。web

2-三、租约与健康检查

这里写图片描述

租约协议主要为了保证一个事实:若是服务器对客户端的检查操做在“最迟时间”失败后,那么服务器端确定会注销客户端的登陆信息,同时客户端上服务器的链接信息也会消失(而且不在向下提供服务)。每一次检查成功,这个“最迟时间”都会向后推移。正则表达式

租约协议和咱们提到的哈希算法一下同样,也是系统架构设计中最基本的设计思想,而且大量运用在各种型的系统中,它的工做原理是每一位架构师都须要掌握的。例如:zookeeper使用这个协议保证Flow节点和Leader节点的链路是正常的;分布式存储系统用这个协议保证datanode和namenode的链接是正常的;算法

三、负载均衡层技术汇总

在前面的博文中,我重点介绍了Nginx、LVS、Keepalived技术。因为时间有限,这里咱们对博文中提到的几种技术进行一个总结,而后再扩展介绍一下DNS技术、CDN技术和硬件负载技术。json

3-一、Nginx技术

在负载均衡层这个大的章节中,我有三篇文章都在直接介绍Nginx的原理和使用。可是以后有朋友给我反映还想了解更多的Nginx知识,特别点名要求我再作一篇文章介绍Nginx的动态缓存。是的,我在后面的时间里是有计划介绍Nginx的动态缓存技术,还会介绍Nginx和多款主流的反向代理软件的性能对比。但这须要时间,特别是我不想去网上找一些已有的性能对比图,仍是本身一边作这样的性能测试,一边作性能报告比较靠谱。vim

下面这些技术是我在博文中已经重点介绍过得,咱们再作一下总结:

  • Nginx中的链接数限制问题

重要的配置项包括:worker_processes、worker_connections。可是光是配置这些属性是不够的,最关键的是咱们要打开操做系统级别的“最大文件数”限制问题。使用“ulimit -n 65535”设置本次会话的“最大文件数”限制;还要使用“vim /etc/security/limits.conf”命令,修改内核的配置信息。主要是如下两项:

* soft nofile 65535 
* hard nofile 65535

另外,还要注意和nginx配置项中的“worker_rlimit_nofile”属性共同使用:

user root root; 
worker_processes 4; 
worker_rlimit_nofile 65535;

#error_log logs/error.log; 
#error_log logs/error.log notice; 
#error_log logs/error.log info;

#pid logs/nginx.pid; 
events { 
    use epoll; 
    worker_connections 65535; 
}
  • Nginx中的Gzip技术

gzip是Nginx进行HTTP Body数据压缩的技术。下面这段Nginx配置信息是启用gzip压缩的实例:

#开启gzip压缩服务, 
gzip on;

#gzip压缩是要申请临时内存空间的,假设前提是压缩后大小是小于等于压缩前的。例如,若是原始文件大小为10K,那么它超过了8K,因此分配的内存是8 * 2 = 16K;再例如,原始文件大小为18K,很明显16K也是不够的,那么按照 8 * 2 * 2 = 32K的大小申请内存。若是没有设置,默认值是申请跟原始数据相同大小的内存空间去存储gzip压缩结果。 
gzip_buffers 2 8k;

#进行压缩的原始文件的最小大小值,也就是说若是原始文件小于5K,那么就不会进行压缩了 
gzip_min_length 5K;

#gzip压缩基于的http协议版本,默认就是HTTP 1.1 
gzip_http_version 1.1;

# gzip压缩级别1-9,级别越高压缩率越大,压缩时间也就越长CPU越高 
gzip_comp_level 5;

#须要进行gzip压缩的Content-Type的Header的类型。建议js、text、css、xml、json都要进行压缩;图片就不必了,gif、jpge文件已经压缩得很好了,就算再压,效果也很差,并且还耗费cpu。 
gzip_types text/HTML text/plain application/x-javascript text/css application/xml;

http返回数据进行压缩的功能在不少场景下都实用:

a、 若是浏览器使用的是3G/4G网络,那么流量对于用户来讲就是money。

b、 压缩可节约服务器机房的对外带宽,为更多用户服务。按照目前的市场价良好的机房带宽资源的通常在200RMB/Mbps,而服务器方案的压力每每也来自于机房带宽。

c、 不是Nginx开启了gzip功能,HTTP响应的数据就必定会被压缩,除了知足Nginx设置的“须要压缩的http格式”之外,客户端(浏览器)也须要支持gzip(否则它怎么解压呢),一个好消息是,目前大多数浏览器和API都支持http压缩。

  • Nginx中的rewrite(重写)技术

Nginx的强大在于其对URL请求的重写(重定位)。Nginx的rewrite功能依赖于PCRE Lib,请必定在Nginx编译安装时,安装Pcre lib。

Nginx的rewrite功能在我《架构设计:负载均衡层设计方案(3)——Nginx进阶》 这边博客中进行了讲解。

下面是一段rewrite的示例:

#示例1:
location ~* ^/(.+)/(.+)\.(jpg|gif|png|jpeg)$ {
    rewrite ^/orderinfo/(.+)\.(jpg|gif|png|jpeg)$   /img/$1.$2   break;
    root   /cephclient;
}

#location在不进行大小写区分的状况下利用正则表达式对$url进行匹配。当匹配成功后进行rewrite重定位。
#rewrite进行重写url的规则是:regex表达式第一个括号中的内容对应$1,regex表达式第二个括号中的内容对应$2,以此类推。
#这样重定位的意义就很明确了:将任何目录下的文件名重定位到img目录下的对应文件名,
#而且立刻在这个location中(注意是Nginx,而不是客户端)执行这个重写后的URL定位。

#示例2:
server {
    。。。。
    。。。。
    location ~* ^/orderinfo/(.+)\.(jpg|gif|png|jpeg)$ {
        rewrite ^/orderinfo/(.+)\.(.+)$  /img/$1.$2   last;
    }

    location / {
        root   /cephclient;
    }
}

#在server中,有两个location位置,当url须要访问orderinfo目录下的某一个图片时,rewrite将重写这个url,
#而且从新带入这个url到server执行,这样“location /”这个location就会执行了,并找到图片存储的目录。
  • Nginx的图片处理模块

http_image_filter_module 是nginx的图片处理模块,是使用nginx进行静态资源和动态资源分开管理的关键引用技术。经过这个模块能够对静态资源进行缩放、旋转、验证。

须要注意的是,http_image_filter_module模块所处理的缩率图片是不进行保存的,彻底使用节点的CPU性能进行计算,使用节点的内存进行临时存储。因此若是要使用http_image_filter_module进行图片处理,必定要根据客户端的请求规模进行nginx节点的调整。而且当站点的PV达到必定的规模时,必定要使用CDN技术进行访问加速、对图片的访问处理手段进行规划。

因为咱们在以前涉及Nginx的文章中,并无详细讲解Nginx的图片处理模块,只是说了要进行介绍,因此这里我给出一个较为详细的安装和配置示例:

nginx的http_image_filter_module模块由GD library进行支持,因此要使用这个图片处理模块,就必须进行第三方依赖包的安装:

yum install gd-devel

而后,Nginx要进行从新编译:

configure --with-http_image_filter_module
make && make install

使用图片处理模块的配置示例:

location ~* /(.+)_(\d+)_(\d+)\.(jpg|gif|png|ioc|jpeg)$ {
    set $h $3;
    set $w $2;
    rewrite /(.+)_(\d+)_(\d+)\.(jpg|gif|png|ioc|jpeg)$ /$1.$4 break;

    image_filter resize $w $h;
    image_filter_buffer 2M;
}

其中关于正则表达式的语法和已经介绍过的rewrite的语法就再也不进行介绍了,主要看http_image_filter_module相关的属性设置:

image_filter test:测试图片文件合法性
image_filter rotate:进行图片旋转,只能按照90 | 180 | 270进行旋转
image_filter size:返回图片的JSON数据
image_filter resize width height:按比例进行图片的等比例缩小,注意,是只能缩小,第二缩小是等比例的。
image_filter_buffer:限制图片最大读取大小,没有设置就是1M;根据不一样的系统最好设置为2M—3M
image_filter_jpeg_quality:设置jpeg图片的压缩比例(1-99,越高越好)
image_filter_transparency:禁用gif和png图片的透明度。

  • 和Nginx相似的其余技术/软件

目前行业内也有不少与Nginx解决同类问题的软件,他们分别是Apache基金会的 Apache HTTP Server、淘宝开源的Tengine、Haproxy、包括Windows 下运行的IIS,也支持反向代理 。

这里笔者再次重点提到Tengine,建议各位读者有时间的时候可使用一下,这个对Nginx进行了深度再开发的软件。

3-二、LVS技术

LVS是Linux Virtual Server的简写,意即Linux虚拟服务器,是一个虚拟的服务器集群系统。本项目在1998年5月由章文嵩博士成立。

LVS集群采用IP负载均衡技术和基于内容请求分发技术。调度器具备很好的吞吐率,将请求均衡地转移到不一样的服务器上执行,且调度器自动屏蔽掉服务器的故障,从而将一组服务器构成一个高性能的、高可用的虚拟服务器。整个服务器集群的结构对客户是透明的,并且无需修改客户端和服务器端的程序。

在个人系列文章中,《架构设计:负载均衡层设计方案(4)——LVS原理》《架构设计:负载均衡层设计方案(5)——LVS单节点安装》《负载均衡层设计方案(7)——LVS + Keepalived + Nginx安装及配置》 都涉及到LVS的讲解。

这里咱们再总结一下LVS中的三种工做模式:

3-2-一、NAT模式

NAT方式是一种由LVS Master服务节点收到数据报,而后转给下层的Real Server节点,当Real Server处理完成后回发给LVS Master节点而后又由LVS Master节点转发出去的工做方式。LVS的管理程序IPVSADMIN负责绑定转发规则,并完成IP数据报文和TCP数据报文中属性的重写。

这里写图片描述

LVS-NAT模式的优势在于:

  • 配置管理简单。LVS-NAT的工做方式是LVS三种工做模式中最容易理解、最容易配置、最容易管理的工做模式。

  • 节省外网IP资源,通常机房分配给使用者的IP数量是有限的,特别是您购买的机架的数量很少时。LVS-NAT工做方式将您的系统架构封装在局域网中,只须要LVS有一个外网地址或外网地址映射就能够实现访问了。

  • 系统架构相对封闭。在内网环境下咱们对防火墙的设置要求不会很高,也相对容易进行物理服务器的运维。您能够设置来源于外网的请求须要进行防火墙过滤,而对内网请求开放访问。

  • 另外改写后转给Real Server的数据报文,Real Server并不会关心它的真实性,只要TCP校验和IP校验都能经过,Real Server就能够进行处理。因此LVS-NAT工做模式下Real Server能够是任何操做系统,只要它支持TCP/IP协议便可。

3-2-二、DR模式

LVS的DR工做模式,是目前生产环境中最经常使用的一种工做模式,网上的资料也是最多的,有的文章对DR工做模式的讲解仍是比较透彻的:

这里写图片描述

LVS-DR模式的优势在于:

  • 解决了LVS-NAT工做模式中的转发瓶颈问题,可以支撑规模更大的负载均衡场景。

  • 比较耗费网外IP资源,机房的外网IP资源都是有限的,若是在正式生产环境中确实存在这个问题,能够采用LVS-NAT和LVS-DR混合使用的方式来缓解。

LVS-DR固然也有缺点:

  • 配置工做较LVS-NAT方式稍微麻烦一点,您至少须要了解LVS-DR模式的基本工做方式才能更好的指导本身进行LVS-DR模式的配置和运行过程当中问题的解决。

  • 因为LVS-DR模式的报文改写规则,致使LVS节点和Real Server节点必须在一个网段,由于二层交换是无法跨子网的。可是这个问题针对大多数系统架构方案来讲,实际上并无本质限制。

3-2-三、TUN模式

LVS-DR模式和LVS-TUN模式的工做原理彻底不同,工做场景彻底不同。DR基于数据报文重写,TUN模式基于IP隧道,后者是对数据报文的从新封装:

这里写图片描述

IPIP隧道。将一个完整的IP报文封装成另外一个新的IP报文的数据部分,并经过路由器传送到指定的地点。在这个过程当中路由器并不在乎被封装的原始协议的内容。到达目的地点后,由目的地方依靠本身的计算能力和对IPIP隧道协议的支持,打开封装协议,取得原始协议:

这里写图片描述

能够说LVS-TUN方式基本上具备LVS-DR的优势。在此基础上又支持跨子网间穿透。

3-三、CDN技术

CDN技术Content Delivery Network:内容分发网络。为何有时咱们访问互联网上的视频资源、图片资源会比较慢,甚至访问失败。其中有一个重要的缘由,是资源的物理位置离客户端太远了,可能其中有4层NAT设备(至关于使用网通的线路访问电信服务器上的资源)。

咱们试想一下,若是将咱们要访问的资源放到离咱们客户端最近的一个服务上(例如在广州的客户端访问的资源就在广州的机房)。那么是否是就解决了这个问题(这个点称为“边缘节点”)。这就是CDN网络解决的问题,以下图所示:

这里写图片描述

目前CDN服务不须要咱们进行开发,市面上有不少公司都提供免费的/付费的 CDN服务(请直接在google或者百度上面输入:CDN,就会有不少“推广”信息了,在个人博文中不打广告^_^)。固然若是您想自行搭建CDN网络,能够参考如下技术方案:

Squid:Squid是一个缓存internet数据的一个软件,它接收用户的下载申请,并自动处理所下载的数据。目前,国内不少CDN服务商的网络都是基于Squid搭建的

利用Nginx的proxy_cache搭建:Nginx中的rewrite技术实际上就能够实现URL请求重写,实现请求转发。而Nginx中的proxy_cache组件可使得从远端请求的源数据保存在本地,从而实现一个CDN网络的搭建。

本身写:CDN网络没有特别复杂的技术门槛,若是您有特别的需求,能够本身写一个。固然上图中所介绍的CDN网络属于第一代CDN网络,将第二代/第三代P2P技术加入到CDN原理中,能够造成第二代CDN网络:以下图所示:

这里写图片描述

第三代P2P技术又被称为混合型P2P技术主要是为了解决元数据服务器的处理压力,加速资源的本地化速度。关于P2P技术我会在讲完“业务系统设计”、“业务通讯系统设计”后,专门作一个新的专题进行介绍。另外提一下,YouTube的P2P网络就是本身作的。

四、后文介绍

要总结的内容实在太多了,我决定再开一篇文章《架构设计:负载均衡层设计方案(9)——负载均衡层总结下篇》,继续进行负载均衡层技术的总结。咱们将总结Keepalived、DNS技术、硬件负载,而且向你们介绍更广义的负载均衡技术。

相关文章
相关标签/搜索