LVS负载均衡原理

1、LVS基本原理概述

  LB集群的实现,LB即负载均衡集群

    硬件:F5 BIG-IP,Citrix NetScaler,A10,Array,Redwarehtml

    软件:Lvs,nginx,haproxy,ats,perlbal,httpd,varnish前端

    基于工做的协议层次划分:linux

      传输层:nginx

        lvs没有上线,haproxy3万并发极限(mode-tcp)web

      应用层算法

        haproxy,nginx,ats,perlbal后端

 

 

  一、背景

    能够参考中文官方文档http://www.linuxvirtualserver.org/zh/lvs1.html服务器

        英文官方文档http://www.linuxvirtualserver.org/Documents.html网络

        参考骏马金龙博客http://www.cnblogs.com/f-ck-need-u/p/7576137.html架构

  二、简介

    lvs(linux virtual server),linux虚拟服务器,是一个虚拟的四层交换器集群系统,根据目标地址和目标端口实现用户请求转发,自己不产生流量,只作用户请求转发,目前是负载均衡性能最好的集群系统,那么负载均衡实现了很好可伸缩性,节点数目能够增加到几千,甚至几万。后期也由不少用户参与开发LVS辅助工具和辅助组件,最出名的就是alexandre为LVS编写的keepalived,它最初专门用于监控LVS,以后又加入VRRP实现高可用功能。

    负载调度器,真实服务器群节点一块儿被称为LVS,LVS负载调度器(有时也称为负载均衡器),接收服务的全部接入服务集群的请求,并决定集群中的哪一个节点应该回复其请求。

    1)、负载调度器(director):做为整个集群的前端,主要将用户请求分发至真实服务器中进行处理。

    2)、真实服务器池:由多个功能相同的真是服务器组成,为用户提供真正的网络服务,如web服务,邮件服务等。且虚拟服务器集群做为一个可伸缩的集群,可自由添加深处真是服务器而并步影响整个集群的正常工做。

    3)、共享存储:做用就是让每一个用户访问的资源都是同样的,服务器支持写操做,才建议使用

     LVS集群的高可用,虽然LVS负载均衡性能很好,可是若是其中节点故障,LVS是没法感知的,所以产生了LVS周边的一个辅助工具KeepAlived,用于监控检查兼容性很是好,若是RS一个节点挂掉,keepalived会将此节点从管理列表中剔出,当节点恢复再拉回管理列表,可是此时的调度器存在单点故障的可能性,因此还必须使用其余软件来实现调度器的高可用,好比hearbeat。

  三、经常使用名词备注

    VS:virtual server,虚拟服务器,也叫Director

    RS:real server,真正的服务器,集群中的节点

    CIP:客户端IP

    VIP:virtual IP,director向外部提供服务的IP

    RIP:realserver集群节点的服务器网卡IP

    DIP:director与RS通讯的IP

  四、LVS框架

    在1998年5月,章文嵩成立了Linux Virtual Server的自由软件项目,进行Linux服务器集群的开发工做。同时,Linux Virtual Server项目是国内最先出现的自由软件项目之一。

    Linux Virtual Server项目的目标 :使用集群技术和Linux操做系统实现一个高性能、高可用的服务器,它具备很好的可伸缩性(Scalability)、可靠性(Reliability)和可管理性(Manageability)。

    目前,LVS项目已提供了一个实现可伸缩网络服务的Linux Virtual Server框架,下图所示。在LVS框架中,提供了含有三种IP负载均衡技术的IP虚拟服务器软件IPVS、基于内容请求分发的内核Layer-7交 换机KTCPVS和集群管理软件。能够利用LVS框架实现高可伸缩的、高可用的Web、Cache、Mail和Media等网络服务;在此基础上,能够开 发支持庞大用户数的、高可伸缩的、高可用的电子商务应用。

    LVS是四层(传输层tcp/vdp),七层(应用层)的负载均衡工具,用的最多的是就是四层负载均衡功能的ipvs,七层的内容分发负载ktcpvs(kenrnel tcp virtual server),基于内容的调度,由于应用层交换处理复杂,但伸缩性有限,目前还不成熟

      ipvs是集成在内核中的框架,ipvs是真正生效实现调度的代码,能够经过用户空间的程序ipvadm工具来管理,该工具能够定义一些规则来管理内核中的ipvs,就像iptables和netfilter的关系同样。

      ipvadmin,工做在用户空间,负责ipvs内核框架编写规则,定义谁是集群服务,而谁是后端真实的服务器(Real Server)

 

   

 

  五、LVS集群的类型,支持的几种模式

    在LVS集群中,集群是一个总体,经过负载均衡调度器(director)做为外部通讯的中介,所以如何将外部请求转发到内部真是服务器的方式对LVS集群分类,LVS四种方式:网络地址转换(LVS-NAT),直接路由(LVS-DR),IP隧道(LVS-TUN)、LVS-FULLNAT,一个负载均衡器上能够实现多种转发方式,通常用一种方式便可。

 

 

2、LVS集群架构图示

  

 

  一、用户访问从CIP到达VIP

  二、负载均衡器DIP到达交换/路由器

  三、最后到达后端的RIP真实的服务器

 

3、LVS在内核中的过程

 

 

  

 

 

  一、当用户向负载均衡调度器(Director Server)发起请求,调度器将请求发往内核空间。

  二、PREROUTING链收到用户请求,判断目标IP肯定是本机IP,将数据包发往INPUT链。

  三、IPVS工做在INPUT链上,当用户请求到达INPUT时,IPVS会将用户请求和本身已定义好的集群服务进行对比,若是用户请求的就是定义的集群服务,那么IPVS会强行修改数据包里的目标IP地址及端口,并将新的数据包发往POSTROUTING链。

  四、POSTROUTING连接收数据包后发现目标IP地址恰好时本身的后端服务器,那么此时经过选路,将数据包最终发送给后端的服务器。

4、内核空间和用户空间的交互

  

    

   ipvsadmin定义lvs服务监听的ip和port,并发送给ipvs,而ipvs是工做在netfilter的input钩子上的程序,当input链中有目标ip属于lvs服务的请求报文时,ipvs就会修改该报文的链路,使其不进入用户空间而直接转到postrouting链上,并转发给其中一台real server。

 5、LVS 4种工做模式介绍

  

  一、lvs-nat 网络地址转换模式

  大多数商品化的IP负载均衡硬件都是使用此方法,如Cisco的LocalDirector、F5的Big/ip。详细介绍4个步骤以下:

    1)客户端发送请求到达director

    2)director根据负载均衡算法改写目标地址为后端的RIP并转发给该后端主机,和NAT同样

    3)当后端主机(RS)处理完请求后,将响应数据交给director

    4)Director改写源地址为VIP后传给客户端

    

   关于这种模式

    一、RIP和DIP通常处于同一私有网段中。但并不是必须,RS的网关要指向DIP,这样能保证将响应数据交给Director

    二、支持端口映射,可修改请求报文的目标端口;

    三、VS/NAT模式的最大缺点使Director负责全部进出数据:不只处理客户端发起的请求,还负责将响应传输给客户端。而响应数据通常比请求数据大得多,调度器Director容易出现瓶颈。(也就是像7层负载的处理方式同样,但却没有7层负载那么多功能)

    四、vs必须使linux系统,RS能够是任何系统

   缺点:在整个过程当中,全部输入输出的流量都要通过LVS调度器,调度器网络I/O压力就会很是大,所以很容易称为瓶颈,特别使对请求流量很小,而响应流量很大的web类应用来讲更为如此;

   优势:NAT模式配置管理简单,因为使用了NAT技术,LVS调度器及应用服务器能够在不一样网段中,网络架构灵活,应用服务器只须要进行简单的网络设定便可加入集群。

 

  二、lvs-dr 直接路由模式

     1)、客户端发送请求到达director,也就是CIP:VIP ;

     2)、director将请求报文从新封装一个mac地址首部dip-mac:rip-mac,因此DIP和RIP须要相同的物理网络实现arp通讯,源IP地址和目标IP地址不变,只是修改源mac地址为DIP的mac地址,目标mac地址改成RIP的mac地址;而后发送给RS;

     3)、RS发现目标地址是本身的MAC地址处理报文,而且RS本地会还接口Lo配置为VIP,响应报文从Lo的VIP发送给eth0网卡,因此响应报文首部cip-mac:Lo-mac,最后响应报文直接发送给客户端,此时源ip地址为VIP,目标地址为CIP;

      注意:RS,director都有VIP,因此要确保请求报文只发送到director,常见的方法修改RS的内核参数arp_ignore、arp_announce设置为1,使RS不影响其余主机的ARP通讯。

      补充:两个内核参数设定说明

        echo 1 > /proc/sys/net/ipv4/conf/all/arp_ignore

        echo 1 > /proc/sys/net/ipv4/conf/eth0/arp_ignore

        echo 2 > /proc/sys/net/ipv4/conf/all/arp_announce

        echo 2 > /proc/sys/net/ipv4/conf/eth0/arp_announce  

        arp_ignore 定义是否相应

          0,默认,收到请求我只要有这个地址就响应

          一、请求报文从哪一个地址进来的,就只能这个接口地址响应

         arp_announce 是否介绍通告,是否通知别人

          0,默认的,所有通告

          1,尽可能避免,不通告不一样网段的

          2,不通告不一样网段的

     关于这种模式:

      1)确保前端路由器将目标ip为vip的请求报文发往director

        a、在前端网关作静态绑定;

        b、在RS上使用arptables;

        c、在RS上修改内核参数以限制arp通告即应答级别;

          arp_announce

          arp_ignore

      2)、RS的RIP可使用私网或公网地址;

      3)、RS跟director在同一物理网络;

      4)、请求报文经由director,响应报文直接发往client;

      5)、此模式不支持端口映射;

      6)、RS支持大多数的OS;

      7)、RIP的网关不能指向DIP,以确保响应报文不经由director;

      

     缺点:LVS调度器及应用服务器在同一个网段中,所以不能实现集群的跨网段应用。

     优势:直接路由转发,经过修改请求报文的目标mac地址进行转发,效率提高明显

 

    三、lvs-tun IP隧道模式

     1)、客户端将请求发送前端的负载均衡器,请求报文源地址是CIP,目标地址为VIP。

     2)、负载均衡器收到报文后,发现请求的在规则里面存在的地址,它将请求报文的首部再封装一层IP报文,将源地址改成DIP,目标地址改成RIP,并将此包发送给RS;

     3)、RS收到请求报文后,会首先拆开第一层封装,而后发现里面还有一层IP首部的目标地址是本身Lo接口上的VIP,因此会再次处理请求报文(这种2次分装解封装的过程,就称为隧道模式)并将响应报文经过Lo接口送给eht0网卡而后直接发给客户端,这种模式也是须要设置Lo接口为VIP,而且不能在公网上

    

     关于这种模式:

      1)、DIP、VIP、RIP、都应该是公网地址;

      2)、RS的网关不能指向DIP;

      3)、请求报文要经由Director,响应报文不经由director;

      4)、不知道端口映射

      5)、RS的操做系统须要支持隧道功能

    缺点:须要租用大量IP,特别是后端服务器使用较多的状况下

    优势:LVS调度器将TCP/IP请求从新封装发给后端服务器,后端应用服务器之间经过IP隧道来进行转发,能够存在于不一样的网段中

  四、lvs-fullnat 

    1)、客户端对VIP发起请求;

    2)、director接收请求,发现是请求后端集群,对请求报文作full nat,源IP改成DIP,目标IP转换为任意后端RS的RIP,而后发日后端;

    3)、RS收到请求后,进行响应,源IP为RIP,目标IP为DIP,内部路由到director;

    4)、director收到响应报文后,进行full nat,源地址改成VIP,目标地址改成CIP;

 

 

 

     关于这种模式:

      1)、VIP是公网地址,RIP和DIP是死亡地址,且一般不在同一网络,所以RIP的网关通常不会指向DIP;

      2)、RS收到的请求报文地址是DIP,所以只需响应给DIP,但director还要将其发往client;

      3)、请求和响应报文都经由director;

      4)、支持端口映射;

    这种模式就像DNAT,它经过同时修改请求报文的源IP地址和目标IP地址进行转发,另外此模式还不是正式版本,须要在官方网站下周源码,编译系统内核才能使用。

6、三种类型比较

 

7、LVS的调度方法scheduler

  负载均衡器可用于作出该决定的调度方法分红两个基本的类别,静态调度和动态调度

  一、静态调度,根据算法自己进行调度

    1)RR:round robin,轮询

    经过轮询的调度算法,就会分配的比较多,不管后端端真实服务器负载状态如何都会平均轮询调度。

    2)WRR:weightd round robin,带权重的轮询

    带权重的轮询

    3)SH:source hashing源地址hash

    未来自同一个ip的请求始终调度至同一RS

    4)DH:destination hashing目标地址hash

    将同一个目标的请求始终发往同一个RS

  二、动态调度,根据算法及各RS的当前负载状态进行调度

    1)、LC:least connection,最少链接

    经过监控后端RS的链接数,根据TCP协议种的某些计算器来判断,将请求调度已创建的链接数最少后端的真实服务器上。

    计算方法:overhead=active*256+lnactive,overhead越小,表示负载越低

    2)、WLC:weight lc,加权的lc

    计算方法:overhead=(active*256+lnactive)/weight

    3)、SED:shortest expertion delay,最短时间望延迟

    计算方法:overhead=(active+1)*256/加权,数目最小,介绍下次请求。

    4)、NQ:never queue,永不排队

    无需排队,若是有台realserver的链接数=0就直接分配过去,不须要在进行sed运算,保证不会有一个主机很空闲。

    5)、LBLC:locality-based least connection,基于本地的最小链接,为动态的DH算法

    该算法根据请求的目标IP地址找出该目标IP 地址最近使用的real server,若该服务器是可用的且没有超载,就会使用“最少链接来挑选一台可用的服务器,将请求发送到该服务器。

    6)、LBLCR:replicated lblc,带复制功能的lblc,是dh算法的一种改进

     该算法根据请求的目标IP地址对应的服务器组,按“最小链接”原则从服务器组种选出一台服务器,若服务器没有超载,将请求发送到该服务器;若服务器超载,则按“最小链接”原则从这个集群种选出一台服务器,将该服务器加入到服务器组中,将请求发送到该服务器,同时,当该服务器组有一段时间没被修改,将最忙的服务器从服务器组中删除,以下降复制的成都。

 

 

转载请注明出处:http://www.javashuo.com/article/p-nphhatwo-n.html