专业的前端反向代理HAproxy简及其配置文件详解

1、HAProxy简介
HAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代理,支持虚拟主机,它是免费、快速而且可靠的一种解决方案。HAProxy特别适用于那些负载特大的web站点,这些站点一般又须要会话保持或七层处理。HAProxy运行在时下的硬件上,彻底能够支持数以万计的并发链接。而且它的运行模式使得它能够很简单安全的整合进您当前的架构中, 同时能够保护你的web服务器不被暴露到网络上。
HAProxy实现了一种事件驱动、单一进程模型,此模型支持很是大的并发链接数。多进程或多线程模型受内存限制 、系统调度器限制以及无处不在的锁限制,不多能处理数千并发链接。事件驱动模型由于在有更好的资源和时间管理的用户端(User-Space) 实现全部这些任务,因此没有这些问题。此模型的弊端是,在多核系统上,这些程序一般扩展性较差。这就是为何他们必须进行优化以 使每一个CPU时间片(Cycle)作更多的工做。
HAProxy是免费、极速且可靠的用于为TCP和基于HTTP应用程序提供高可用、负载均衡和代理服务的解决方案,尤为适用于高负载且须要持久链接或7层处理机制的web站点。php

 

2、HAproxy支持的平台及OS:
 x8六、x86_6四、Alpha、SPARC、MIPS及PARISC平台上的Linux 2.4;
 x8六、x86_6四、ARM (ixp425)及PPC64平台上的Linux2.6;
 UltraSPARC 2和3上的Sloaris 8/9;
 Opteron和UltraSPARC平台上的Solaris 10;
 x86平台上的FreeBSD 4.1-8;
 i386, amd64, macppc, alpha, sparc64和VAX平台上的OpenBSD 3.1-current;css

 

若要得到最高性能,须要在Linux 2.6或打了epoll补丁的Linux 2.4上运行haproxy 1.2.5以上的版本。haproxy 1.1l默认使用的polling系统为select(),其处理的文件数达数千个时性能便会急剧降低。1.2和1.3版本默认的为poll(),在有些操做系统上可会也会有性能方面的问题,但在Solaris上表现至关不错。HAProxy 1.3在Linux 2.6及打了epoll补丁的Linux 2.4上默认使用epoll,在FreeBSD上使用kqueue,这两种机制在任何负载上都能提供恒定的性能表现。
在较新版本的Linux 2.6(>=2.6.27.19)上,HAProxy还可以使用splice()系统调用在接口间无复制地转发任何数据,这甚至能够达到10Gbps的性能。html

 

基于以上事实,在x86或x86_64平台上,要获取最好性能的负载均衡器,建议按顺序考虑如下方案。
 Linux 2.6.32及以后版本上运行HAProxy 1.4;
 打了epoll补丁的Linux 2.4上运行HAProxy 1.4;
 FreeBSD上运行HAProxy 1.4;
 Solaris 10上运行HAProxy 1.4;
前端


3、HAproxy的性能特色node

HAProxy借助于OS上几种常见的技术来实现性能的最大化。
一、单进程、事件驱动模型显著下降了上下文切换的开销及内存占用。
二、O(1)事件检查器(event checker)容许其在高并发链接中对任何链接的任何事件实现即时探测。
三、 在任何可用的状况下,单缓冲(single buffering)机制能以不复制任何数据的方式完成读写操做,这会节约大量的CPU时钟周期及内存带宽;
四、 借助于Linux 2.6 (>= 2.6.27.19)上的splice()系统调用,HAProxy能够实现零复制转发(Zero-copy forwarding),在Linux 3.5及以上的OS中还能够实现零复制启动(zero-starting);
五、 MRU内存分配器在固定大小的内存池中可实现即时内存分配,这可以显著减小建立一个会话的时长;
六、 树型存储:侧重于使用做者多年前开发的弹性二叉树,实现了以O(log(N))的低开销来保持计时器命令、保持运行队列命令及管理轮询及最少链接队列;
 七、优化的HTTP首部分析:优化的首部分析功能避免了在HTTP首部分析过程当中重读任何内存区域;
 精心地下降了昂贵的系统调用,大部分工做都在用户空间完成,如时间读取、缓冲聚合及文件描述符的启用和禁用等;web

 

全部的这些细微之处的优化实现了在中等规模负载之上依然有着至关低的CPU负载,甚至于在很是高的负载场景中,5%的用户空间占用率和95%的系统空间占用率也是很是广泛的现象,这意味着HAProxy进程消耗比系统空间消耗低20倍以上。所以,对OS进行性能调优是很是重要的。即便用户空间的占用率提升一倍,其CPU占用率也仅为10%,这也解释了为什么7层处理对性能影响有限这一现象。由此,在高端系统上HAProxy的7层性能可轻易超过硬件负载均衡设备。正则表达式

 

能够从三个因素来评估负载均衡器的性能:
一、会话率
二、会话并发能力
三、 数据率redis

 

4、HAproxy的配置文件详解算法

一、配置文件格式apache

HAproxy的配置文件主要分为二大段:

——"global"配置段,用于设定全局配置参数;
——"proxy"相关配置段,主要包括“defaults”、“listen”、“frontend”和“backend”等配置端信息;

 

二、时间格式

一些包含了值的参数表示时间,如超时时长。这些值通常以毫秒为单位,但也可使用其它的时间单位后缀。
 us: 微秒(microseconds),即1/1000000秒;
 ms: 毫秒(milliseconds),即1/1000秒;
 s: 秒(seconds);
 m: 分钟(minutes);
 h:小时(hours);
 d: 天(days);

 

三、HAproxy的默认配置样板

    global
        daemon
        maxconn 25600

    defaults
        mode http
        timeout connect 5000ms
        timeout client 50000ms
        timeout server 50000ms

    frontend http-in
        bind *:80
        default_backend servers

    backend servers
        server server1 127.0.0.1:8080 maxconn 32

 

配置了一个监听在全部接口的80端口上HTTP proxy服务,它转发全部的请求至后端监听在127.0.0.1:8080上的"server"。

 

四、global段参数详解

“global”配置中的参数为进程级别的参数,且一般与其运行的OS相关,其生效范围为全局。

(1)、与进程管理及安全相关的参数
chroot <jail dir>:修改haproxy的工做目录至指定的目录并在放弃权限以前执行chroot()操做,能够提高haproxy的安全级别,不过须要注意的是要确保指定的目录为空目录且任何用户均不能有写权限;
daemon:让haproxy以守护进程的方式工做于后台,其等同于“-D”选项的功能,固然,也能够在命令行中以“-db”选项将其禁用;
gid <number>:以指定的GID运行haproxy,建议使用专用于运行haproxy的GID,以避免因权限问题带来风险;

group <group name>:同gid,不过指定是组名;
log  <address> <facility> [max level [min level]]:定义全局的syslog服务器,最多能够定义两个;
log-send-hostname [<string>]:在syslog信息的首部添加当前主机名,能够为“string”指定的名称,也能够缺省使用当前主机名;
nbproc <number>:指定启动的haproxy进程个数,只能用于守护进程模式的haproxy;默认只启动一个进程,鉴于调试困难等多方面的缘由,通常只在单进程仅能打开少数文件描述符的场景中才使用多进程模式;
pidfile:haproxy的pid文件
uid:以指定的UID身份运行haproxy进程;
ulimit-n:设定每进程所可以打开的最大文件描述符数目,默认状况下其会自动进行计算,所以不推荐修改此选项;
user:同uid,但使用的是用户名;
stats:
node:
定义当前节点的名称,用于HA场景中多haproxy进程共享同一个IP地址时;
description:当前实例的描述信息;

 

(2)、性能调整相关的参数
maxconn <number>:设定每一个haproxy进程所接受的最大并发链接数,其等同于命令行选项“-n”;“ulimit -n”自动计算的结果正是参照此参数设定的;
maxpipes <number>:haproxy使用pipe完成基于内核的tcp报文重组,此选项则用于设定每进程所容许使用的最大pipe个数;每一个pipe会打开两个文件描述符,所以,“ulimit -n”自动计算时会根据须要调大此值;默认为maxconn/4,其一般会显得过大;
noepoll:在Linux系统上禁用epoll机制;
nokqueue:在BSD系统上禁用kqueue机制;
nopoll:禁用poll机制;
nosepoll:在Linux禁用启发式epoll机制;
nosplice:禁止在Linux套接字上使用内核tcp重组,这会致使更多的recv/send系统调用;不过,在Linux 2.6.25-28系列的内核上,tcp重组功能有bug存在;
spread-checks <0..50, in percent>:在haproxy后端有着众多服务器的场景中,在精确的时间间隔后统一对众服务器进行健康情况检查可能会带来意外问题;此选项用于将其检查的时间间隔长度上增长或减少必定的随机时长;
tune.bufsize <number>:设定buffer的大小,一样的内存条件下,较小的值可让haproxy有能力接受更多的并发链接,较大的值可让某些应用程序使用较大的cookie信息;默认为16384,其能够在编译时修改,不过强烈建议使用默认值;
tune.chksize <number>:设定检查缓冲区的大小,单位为字节;更大的值有助于在较大的页面中完成基于字符串或模式的文本查找,但也会占用更多的系统资源;不建议修改;
tune.maxaccept <number>:设定haproxy进程内核调度运行时一次性能够接受的链接的个数,较大的值能够带来较大的吞吐率,默认在单进程模式下为100,多进程模式下为8,设定为-1能够禁止此限制;通常不建议修改;
tune.maxpollevents  <number>:设定一次系统调用能够处理的事件最大数,默认值取决于OS;其值小于200时可节约带宽,但会略微增大网络延迟,而大于200时会下降延迟,但会稍稍增长网络带宽的占用量;
tune.maxrewrite <number>:设定为首部重写或追加而预留的缓冲空间,建议使用1024左右的大小;在须要使用更大的空间时,haproxy会自动增长其值;
tune.rcvbuf.client <number>:设定内核套接字中接收客户端的缓冲大小,单位为字节

tune.rcvbuf.server <number>:设定内核套接字中接收后端服务端的缓冲大小,单位为字节;强烈推荐使用默认值;
tune.sndbuf.client <number>:设定内核套接字中发送给客户端的缓冲大小,单位为字节;

tune.sndbuf.server <number>:设定内核套接字中发送给后端服务器的缓冲大小,单位为字节;

 

 

五、代理相关(proxy)配置段

“defaults”段用于为全部其它配置段提供默认参数,这配置默认配置参数可由下一个“defaults”所从新设定。

“frontend”段用于定义一系列监听的套接字,这些套接字可接受客户端请求并与之创建链接。

“backend”段用于定义一系列“后端”服务器,代理将会将对应客户端的请求转发至这些服务器。这些后端服务器将会在"fronend"中被调用。

“listen”段经过关联“前端(frontend)”和“后端(backend)”定义了一个完整的代理。这也就是说在即便没有"frontend"段和"backend"段,也能够实现一个完成代理的定义。所以。定义代理的方式有2种:一是经过定义"frontend"和"backend"来实现;而是经过定义"listen"段来实现。一般listen只对TCP流量有用。

 

注意:全部代理的名称只能使用大写字母、小写字母、数字、-(中线)、_(下划线)、.(点号)和:(冒号)组成。此外,ACL名称会区分字母大小写。


代理的相关参数有以下:

(1)、 balance

语法格式为:

balance <algorithm> [ <arguments> ]

balance url_param <param> [check_post [<max_wait>]]

balance用来定义负载均衡算法,可用于“defaults”、“listen”和“backend”。<algorithm>用于在负载均衡场景中挑选一个server,其仅应用于持久信息不可用的条件下或须要将一个链接从新派发至另外一个服务器时。支持的算法有:

roundrobin:基于权重进行轮叫,在服务器的处理时间保持均匀分布时,这是最平衡、最公平的算法。此算法是动态的,这表示其权重能够在运行时进行调整,该方法支持慢启动。不过,在设计上,每一个后端服务器仅能最多接受4128个链接;


static-rr:基于权重进行轮叫,与roundrobin相似,可是为静态方法,在运行时调整其服务器权重不会生效,除非重启服务器,不支持慢启动;不过,其在后端服务器链接数上没有限制;


leastconn:新的链接请求被派发至具备最少链接数目的后端服务器;在有着较长时间会话的场景中推荐使用此算法,如LDAP、SQL等,其并不太适用于较短会话的应用层协议,如HTTP;此算法是动态的,能够在运行时调整其权重,支持慢启动;


source:将请求的源地址进行hash运算,并由后端服务器的权重总数相除后取模,再派发至某匹配的服务器;这可使得同一个客户端IP的请求始终被派发至某特定的服务器;不过,当服务器权重总数发生变化时,如某服务器宕机或添加了新的服务器,许多客户端的请求可能会被派发至与此前请求不一样的服务器;经常使用于负载均衡无cookie功能但又要保持会话的场景中;其默认为静态,不过也可使用hash-type修改此特性;


uri:对URI的左半部分(“?”号以前的部分)或整个URI进行hash运算,并由服务器的总权重相除取模后再派发至某匹配的服务器;这可使得对同一个URI的请求老是被派发至某特定的服务器,除非服务器的权重总数发生了变化;此算法经常使用于后端服务器是缓存或反病毒代理服务器的场景,以提升缓存的命中率;须要注意的是,此算法仅应用于HTTP后端服务器场景;其默认为静态算法,不过也可使用hash-type修改此特性;该算法支持2个参数,len和depth。len表示取指定长度的uri作hash计算;depth表示取指定的目录层次作hash计算。这两个参数只须要指定一个便可。

url的格式以下:

scache://host[:port]/path[;parameters][?query][#fregment]。

好比:http://test.xsl.com/a/b/c/hh.php;hello=world?a1=4&a2=3;若是这里使用len=8,表示取uri长度为8作hash计算,这里即取/a/b/c/hh作hash计算,而后在除以weight总和取模,从而来匹配将请求转发至那台服务器上。若是指定depth=3,则这里是取/a/b/c这三级目录结构作hash计算,并除以weight的总和取模,从而来匹配将请求转发至那台服务器上。


url_param:若是某个url中含有parameters,且该parameters被赋予了value,那么此value将被执行hash运算并被服务器的总权重相除取模后派发至某匹配的服务器;此算法经常使用于后端服务器有用户认证时,能够经过追踪请求中的用户标识进而确保同一个用户ID的请求将被送往同一个特定的服务器,除非服务器的总权重发生了变化;若是某请求中没有出现指定的参数或其没有有效值,则使用rr算法对相应请求进行调度;此算法默认为静态的,不过其也可使用hash-type修改此特性;

好比http://test.xsl.com/a/b/c/hh.php;hello=world?a1=4&a2=3这个url中的参数为hello,其value为world,使用url_param算法时,将会对world作hash计算,而后在除以weight总和并取模后,在匹配至相应的后端服务器。


hdr(<header_name>):对于每一个HTTP请求,经过<header_name>指定的HTTP首部将会被检索;若是相应的首部没有出现或其没有有效值,则使用rr算法对相应请求进行调度;其有一个可选选项“use_domain_only”,可在指定检索相似Host类的首部时仅计算域名部分(好比经过www.magedu.com来讲,仅计算magedu.com字符串的hash值)以下降hash算法的运算量;此算法默认为静态的,不过其也可使用hash-type修改此特性;
rdp-cookie
rdp-cookie(name)

 

(2)、bind

语法格式为:

bind [<address>]:<port_range> [, ...]
bind [<address>]:<port_range> [, ...] interface <interface>

此指令仅能用于frontend和listen区段,用于定义一个或几个监听的套接字。

<address>:可选选项,其能够为主机名、IPv4地址、IPv6地址或*;省略此选项、将其指定为*或0.0.0.0时,将监听当前系统的全部IPv4地址;
<port_range>:能够是一个特定的TCP端口,也但是一个端口范围(如5005-5010),代理服务器将经过指定的端口来接收客户端请求;须要注意的是,每组监听的套接字<address:port>在同一个实例上只能使用一次,并且小于1024的端口须要有特定权限的用户才能使用,这可能须要经过uid参数来定义;
<interface>:指定物理接口的名称,仅能在Linux系统上使用;其不能使用接口别名,而仅能使用物理接口名称,并且只有管理有权限指定绑定的物理接口;

 

(3)、mode

语法格式:mode { tcp|http|health }

设定实例的运行模式或协议。当实现内容交换时,前端和后端必须工做于同一种模式(通常说来都是HTTP模式),不然将没法启动实例。

tcp:实例运行于纯TCP模式,在客户端和服务器端之间将创建一个全双工的链接,且不会对7层报文作任何类型的检查;此为默认模式,一般用于SSL、SSH、SMTP等应用;
http:实例运行于HTTP模式,客户端请求在转发至后端服务器以前将被深度分析,全部不与RFC格式兼容的请求都会被拒绝,支持7层过滤、处理与转换等机制。

health:这种模式也被废弃。

 

(4)、hash-type

语法格式:hash-type <method>

定义用于将hash码映射至后端服务器的方法;其不能用于frontend区段;可用方法有map-based和consistent,在大多数场景下推荐使用默认的map-based方法。

map-based:hash表是一个包含了全部在线服务器的静态数组。其hash值将会很是平滑,会将权重考虑在列,但其为静态方法,对在线服务器的权重进行调整将不会生效,这意味着其不支持慢速启动。此外,挑选服务器是根据其在数组中的位置进行的,所以,当一台服务器宕机或添加了一台新的服务器时,大多数链接将会被从新派发至一个与此前不一样的服务器上,对于缓存服务器的工做场景来讲,此方法不甚适用。
consistent:hash表是一个由各服务器填充而成的树状结构;基于hash键在hash树中查找相应的服务器时,最近的服务器将被选中。此方法是动态的,支持在运行时修改服务器权重,所以兼容慢速启动的特性。添加一个新的服务器时,仅会对一小部分请求产生影响,所以,尤为适用于后端服务器为cache的场景。不过,此算法不甚平滑,派发至各服务器的请求未必能达到理想的均衡效果,所以,可能须要不时的调整服务器的权重以得到更好的均衡性。

 

(5)、log

语法格式为:

log global
log <address> <facility> [<level> [<minlevel>]]

为每一个实例启用事件和流量日志,所以可用于全部区段。每一个实例最多能够指定两个log参数,不过,若是使用了“log global”且"global"段已经定了两个log参数时,多余了log参数将被忽略。

log global:表示当前的日志系统参数和"global"段中定义的同样。每一个实例仅能定义一次“log global”语句,且其没有任何额外参数;

<address>:定义日志发往的位置,其格式之一能够为<IPv4_address:PORT>,其中的port为UDP协议端口,默认为514;格式之二为Unix套接字文件路径,但须要留心chroot应用及用户的读写权限;
<facility>:能够为syslog系统的标准facility之一;
<level>:定义日志级别,即输出信息过滤器,默认为全部信息;指定级别时,全部等于或高于此级别的日志信息将会被发送;

 

(6)、maxconn

语法格式为:maxconn <conns>

设定一个前端的最大并发链接数,所以,其不能用于backend区段。对于大型站点来讲,能够尽量提升此值以便让haproxy管理链接队列,从而避免没法应答用户请求。固然,此最大值不能超出“global”段中的定义。此外,须要留心的是,haproxy会为每一个链接维持两个缓冲,每一个缓冲的大小为8KB,再加上其它的数据,每一个链接将大约占用17KB的RAM空间。这意味着通过适当优化后,有着1GB的可用RAM空间时将能维护40000-50000并发链接。

若是为<conns>指定了一个过大值,极端场景下,其最终占据的空间可能会超出当前主机的可用内存,这可能会带来意想不到的结果;所以,将其设定了一个可接受值方为明智决定。其默认为2000。

 

(7)、default_backend

语法格式为:default_backend <backend>

若是某请求没有匹配任何"use_backend"时,则使用指定的默认后端服务器来进行处理,所以,其不可应用于backend区段。在"frontend"和"backend"之间进行内容交换时,一般使用"use-backend"定义其匹配规则;而没有被规则匹配到的请求将由此参数指定的后端接收。
<backend>:指定使用的后端的名称;

其配置方式可参考以下案例:

use_backend     dynamic  if  url_dyn
use_backend     static   if  url_css url_img extension_img
default_backend dynamic

 

(8)、server

语法格式为:server <name> <address>[:port] [param*]

server用来指定后端服务器的,服务器能够由多个,server不能用于defaults和frontend区段。

<name>:为此服务器指定的内部名称,其将出如今日志及警告信息中;若是设定了"http-send-server-name",它还将被添加至发往此服务器的请求首部中;
<address>:此服务器的的IPv4地址,也支持使用可解析的主机名,只不过在启动时须要解析主机名至相应的IPv4地址;
[:port]:指定将链接请求所发往的此服务器时的目标端口,其为可选项;未设定时,将使用客户端请求时的相同端口;
[param*]:为此服务器设定的一系参数;其可用的参数很是多,具体请参考官方文档中的说明,下面仅说明几个经常使用的参数;
   backup:设定为备用服务器,仅在负载均衡场景中的其它server均不可用于启用此server;
   check:启动对此server执行健康状态检查,其能够借助于额外的其它参数完成更精细的设定,如:
   inter <delay>:设定健康状态检查的时间间隔,单位为毫秒,默认为2000;也可使用fastinter和downinter来根据服务器端状态优化此时间延迟;
   rise <count>:设定健康状态检查中,某离线的server从离线状态转换至正常状态须要成功检查的次数;
   fall <count>:确认server从正常状态转换为不可用状态须要检查的次数;
cookie <value>:为指定server设定cookie值,此处指定的值将在请求入站时被检查,第一次为此值挑选的server将在后续的请求中被选中,其目的在于实现session持久链接的功能;
maxconn <maxconn>:指定此服务器接受的最大并发链接数;若是发往此服务器的链接数目高于此处指定的值,其将被放置于请求队列,以等待其它链接被释放;
maxqueue <maxqueue>:设定请求队列的最大长度;
observe <mode>:经过观察服务器的通讯情况来断定其健康状态,默认为禁用,其支持的类型有“layer4”和“layer7”,“layer7”仅能用于http代理场景;
redir <prefix>:启用重定向功能,将发往此服务器的GET和HEAD请求均以302状态码响应;须要注意的是,在prefix后面不能使用/,且不能使用相对地址,以避免形成循环;例如:
 server srv1 172.16.100.6:80 redir http://p_w_picpathserver.magedu.com check
weight <weight>:权重,默认为1,最大值为256,0表示不参与负载均衡

 

健康情况检查方法有以下几种:

option httpchk
option httpchk <uri>
option httpchk <method> <uri>
option httpchk <method> <uri> <version>:不能用于frontend段。

例如:

backend https_relay
    mode tcp
    option httpchk OPTIONS * HTTP/1.1\r\nHost:\ www.magedu.com
    server apache1 192.168.1.1:443 check port 80

 

server的配置模板以下:

server first   172.16.100.7:1080 cookie first   check inter 1000 
server second  172.16.100.8:1080 cookie second  check inter 1000
其意思为定义了2个后端服务器,其中cookie为first的用户请求被转发中后端的172.16.100.7:8080处理,cookie为second的用户请求被转发至后端的172.16.100.8:8080处理,且haproxy每隔1秒钟检查一下后端服务器的健康情况。

 

(9)、capture request header

语法格式为:capture request header <name> len <length>

捕获并记录指定的请求首部最近一次出现时的第一个值,仅能用于“frontend”和“listen”区段。捕获的首部值使用花括号{}括起来后添加进日志中。若是须要捕获多个首部值,它们将以指定的次序出如今日志文件中,并以竖线“|”做为分隔符。不存在的首部记录为空字符串,最常须要捕获的首部包括在虚拟主机环境中使用的“Host”、上传请求首部中的“Content-length”、快速区别真实用户和网络机器人的“User-agent”,以及代理环境中记录真实请求来源的“X-Forward-For”。

<name>:要捕获的首部的名称,此名称不区分字符大小写,但建议与它们出如今首部中的格式相同,好比大写首字母。须要注意的是,记录在日志中的是首部对应的值,而非首部名称。
<length>:指定记录首部值时所记录的精确长度,超出的部分将会被忽略。

 

能够捕获的请求首部的个数没有限制,但每一个捕获最多只能记录64个字符。为了保证同一个frontend中日志格式的统一性,首部捕获仅能在frontend中定义。

 

(10)、 capture response header

语法格式为:capture response header <name> len <length>

捕获并记录响应首部,其格式和要点同请求首部。

 

 

(11)、stats enable

启用统计报告功能,不能用于“frontend”区段。只要没有另外的其它设定,它们就会使用以下的配置:

启用统计报告功能,须要使用http模式,即须要添加"mode http"参数

- stats uri   : /haproxy?stats              

//经过访问这个uri能够显示当前haproxy的状态和链接统计信息
- stats realm : "HAProxy Statistics"   认证登陆时的提示语
- stats auth  : no authentication    不认证

- stats scope : no restriction       对统计范围不作限制

尽管“stats enable”一条就可以启用统计报告,但仍是建议设定其它全部的参数,以避免其依赖于默认设定而带来非预期后果。下面是一个配置案例。


backend public_www
    server websrv1 172.16.100.11:80
    stats enable
    stats hide-version    表示隐藏版本号
    stats scope   .
    stats uri     /haproxyadmin?stats
    stats realm   Haproxy\ Statistics
    stats auth    statsadmin:password
    stats auth    statsmaster:password

 

(12)、stats hide-version

stats hide-version:启用统计报告并隐藏HAProxy版本报告,不能用于“frontend”区段。默认状况下,统计页面会显示一些有用信息,包括HAProxy的版本号,然而,向全部人公开HAProxy的精确版本号是很是有风险的,由于它能帮助恶意用户快速定位版本的缺陷和漏洞。尽管“stats hide-version”一条就可以启用统计报告,但仍是建议设定其它全部的参数,以避免其依赖于默认设定而带来非预期后果。

 

(13)、stats realm

语法格式:stats realm <realm>

启用统计报告并显示认证领域,不能用于“frontend”区段。haproxy在读取realm时会将其视做一个单词,所以,中间的任何空白字符都必须使用反斜线进行转义。此参数仅在与“stats auth”配置使用时有意义。

<realm>:实现HTTP基本认证时显示在浏览器中的领域名称,用于提示用户输入一个用户名和密码

 

(14)、stats scope

语法格式:stats scope { <name> | "." }

启用统计报告并限定报告的区段,不能用于“frontend”区段。当指定此语句时,统计报告将仅显示其列举出区段的报告信息,全部其它区段的信息将被隐藏。若是须要显示多个区段的统计报告,此语句能够定义屡次。须要注意的是,区段名称检测仅仅是以字符串比较的方式进行,它不会真检测指定的区段是否真正存在。
<name>:能够是一个“listen”、“frontend”或“backend”区段的名称,而“.”则表示stats scope语句所定义的当前区段。

 

(15)、stats auth

语法格式为:stats auth <user>:<passwd>

启用基于用户认证的统计报告功能,其不能用于“frontend”区段

<user>:受权进行访问的用户名;
<passwd>:此用户的访问密码,明文格式;

此语句将基于默认设定启用统计报告功能,并仅容许其定义的用户访问,其也能够定义屡次以受权多个用户账号。能够结合“stats realm”参数在提示用户认证时给出一个领域说明信息。在使用非法用户访问统计功能时,其将会响应一个“401 Forbidden”页面。其认证方式为HTTP Basic认证,密码传输会以明文方式进行,所以,配置文件中也使用明文方式存储以说明其非保密信息故此不能相同于其它关键性账号的密码。


(16)、stats admin

语法格式:stats admin { if | unless } <cond>

在指定的条件知足时启用统计报告页面的管理级别功能,它容许经过web接口启用或禁用服务器,不过,基于安全的角度考虑,统计报告页面应该尽量为只读的。此外,若是启用了HAProxy的多进程模式,启用此管理级别将有可能致使异常行为。

目前来讲,POST请求方法被限制于仅能使用缓冲区减去保留部分以外的空间,所以,服务器列表不能过长,不然,此请求将没法正常工做。所以,建议一次仅调整少数几个服务器。

下面是两个案例,第一个限制了仅能在本机打开报告页面时启用管理级别功能,第二个定义了仅容许经过认证的用户使用管理级别功能。

backend stats_localhost
    stats enable
    stats admin if LOCALHOST

backend stats_auth
    stats enable
    stats auth  haproxyadmin:password
    stats admin if TRUE

 

(17)、option httplog

语法格式:option httplog [ clf ]

启用记录HTTP请求、会话状态和计时器的功能。

clf:使用CLF格式来代替HAProxy默认的HTTP格式,一般在使用仅支持CLF格式的特定日志分析器时才须要使用此格式

默认状况下,日志输入格式很是简陋,由于其仅包括源地址、目标地址和实例名称,而“option httplog”参数将会使得日志格式变得丰富许多,其一般包括但不限于HTTP请求、链接计时器、会话状态、链接数、捕获的首部及cookie、“frontend”、“backend”及服务器名称,固然也包括源地址和端口号等。


(18)、option logasap

[no] option logasap:启用或禁用提早将HTTP请求记入日志,不能用于“backend”区段。

默认状况下,HTTP请求是在请求结束后进行记录以便能将其总体传输时长和字节数记入日志,由此,传较大的对象时,其记入日志的时长可能会略有延迟。“option logasap”参数可以在服务器发送complete首部时即时记录日志,只不过,此时将不记录总体传输时长和字节数。此情形下,捕获“Content-Length”响应首部来记录传输的字节数是一个较好选择。下面是一个例子。
listen http_proxy 0.0.0.0:80
      mode http
      option httplog
      option logasap
      log 172.16.100.9 local2

 

(19)、option forwardfor

语法格式:option forwardfor [ except <network> ] [ header <name> ] [ if-none ]

容许在发往服务器的请求首部中插入“X-Forwarded-For”首部。

<network>:可选参数,当指定时,源地址为匹配至此网络中的请求都禁用此功能。

<name>:可选参数,可以使用一个自定义的首部,如“X-Client”来替代“X-Forwarded-For”。有些独特的web服务器的确须要用于一个独特的首部。

if-none:仅在此首部不存在时才将其添加至请求报文问道中。

HAProxy工做于反向代理模式,其发往服务器的请求中的客户端IP均为HAProxy主机的地址而非真正客户端的地址,这会使得服务器端的日志信息记录不了真正的请求来源,“X-Forwarded-For”首部则可用于解决此问题。HAProxy能够向每一个发往服务器的请求上添加此首部,并以客户端IP为其value。若是后端的httpd服务器想要记录客户端的真实ip,而不是haproxy服务器的ip,能够在httpd的配置文件中的LogFormat指令中,添加%{X-Client-IP}i字段。这样当有请求达到时,httpd服务器的日志文件中就会记录的真是客户端ip,就不会是haproxy的ip了。

下面是一个配置案例:

frontend www
    mode http
    option forwardfor except 127.0.0.1

 


(20)、option dontlognull

该参数表示不将空链接产生的污染数据记录到日志文件中。所谓空链接就是指链接已经创建上了,可是没有任何传输任何数据。可是一般系统为了证实这些链接时alive的,老是会发起一些探针,这些探针产生的数据咱们就将他称为污染数据。no option dontlognull表示禁用此功能,那么这些污染数据将会记录到日志文件中。



(21)、option abortonclose

丢失因为客户端等待过长时间而关闭的链接但仍在haproxy队列中的请求。



(22)、option http-server-close

在有keep-alive的链接中,若是保持链接在时间已超时或者请求已达到最大值时,客户端仍然没有断开该链接的话,那么server端将主动断开此链接。已节省系统资源。并下降客户端延迟。默认该功能启用。



(23)、option redispatch

该参数主要用来实现session的重定向功能的。

在http mode中,若是启用了基于cookie的session的绑定功能,那么当后端的某台服务器down掉时,该服务器上的session信息也会丢失,所以,此前由该台服务器响应的请求将没法访问。option redispatch就能够用来解决此问题,当后端的某台服务器down掉时,则此前由该台服务器处理的请求将由另一台服务器进行响应处理,并把另一台服务器的cookie返回给客户端。以达到从新实现session保持功能。这样,当客户端下一次请求时,该请求将直接由另一台服务器进行处理。固然,后端服务器down掉时,haproxy服务器会尝试链接另外的服务器,所以,该功能要想启用,还必须指定重连次数,即设定retires的值。该参数不能用于frontend段。


(24)、retries

当某个链接被拒绝或者超时后,从新尝试链接的次数。若是设置了option redispatch的话,那么最后一次重试会链接到另一台服务器上去。以便返回不一样服务器上的cookie信息,实现session重定向功能。


(25)、超时时长设置

timeout http request:设置请求的最大等待时间。当请求超时后,断开客户端链接。

timeout queue:当后端服务器达到最大链接时,新的链接将会放置到队列中。为了防止队列中的链接无限制的等待下去。须要为这些队列中的链接设置一个超时时间。当超过该时间后,这些链接将会丢弃,并返回503错误。

timeout client:客户端一次非活动链接的超时时长。非活动链接指的是链接已经创建,可是客户端或服务器并未传输数据。

timeout server:服务器端非活动链接的超时时长。

timeout connect:haproxy链接后端服务器的超时时长。

timeout http-keep-alive:保持链接的超时时长。

timeout check:在实现健康情况检查时,检查后端服务器健康的超时时长。该值要小于timeout server。


(26)、errorfile

语法格式为:errorfile <code> <file>

在用户请求不存在的页面时,返回一个页面文件给客户端而非由haproxy生成的错误代码;可用于全部段中。

<code>:指定对HTTP的哪些状态码返回指定的页面;这里可用的状态码有200、400、40三、40八、500、50二、503和504;
<file>:指定用于响应的页面文件;

配置案例以下:

errorfile 400 /etc/haproxy/errorpages/400badreq.http
errorfile 403 /etc/haproxy/errorpages/403forbid.http
errorfile 503 /etc/haproxy/errorpages/503sorry.http


(27)、errorloc 和 errorloc302

语法格式:

errorloc <code> <url>
errorloc302 <code> <url>

请求错误时,返回一个HTTP重定向至某URL的信息;可用于全部配置段中

<code>:指定对HTTP的哪些状态码返回指定的页面;这里可用的状态码有200、400、40三、40八、500、50二、503和504;
<url>:Location首部中指定的页面位置的具体路径,能够是在当前服务器上的页面的相对路径,也可使用绝对路径;须要注意的是,若是URI自身错误时产生某特定状态码信息的话,有可能会致使循环定向;

须要留意的是,这两个关键字都会返回302状态吗,这将使得客户端使用一样的HTTP方法获取指定的URL,对于非GET方法的场景(如POST)来讲会产生问题,由于返回客户的URL是不容许使用GET之外的其它方法的。若是的确有这种问题,可使用errorloc303来返回303状态码给客户端。


(28)、errorloc303

语法格式:errorloc303 <code> <url>

请求错误时,返回一个HTTP重定向至某URL的信息给客户端;可用于全部配置段中。

<code>:指定对HTTP的哪些状态码返回指定的页面;这里可用的状态码有400、40三、40八、500、50二、503和504;
<url>:Location首部中指定的页面位置的具体路径,能够是在当前服务器上的页面的相对路径,也可使用绝对路径;须要注意的是,若是URI自身错误时产生某特定状态码信息的话,有可能会致使循环定向;

下面是一个配置案例:

backend webserver
  server 172.16.100.6 172.16.100.6:80 check maxconn 3000 cookie srv01
  server 172.16.100.7 172.16.100.7:80 check maxconn 3000 cookie srv02
  errorloc 403 /etc/haproxy/errorpages/sorry.htm
  errorloc 503 /etc/haproxy/errorpages/sorry.htm


六、haproxy的acl

haproxy的acl提供了一种灵活的解决方案来实现内容交换。它能够经过请求报文、响应报文及其余环境状态信息做出转发决策。acl的一般用来阻塞请求、为请求挑选后端服务器或者添加一些首部信息。acl的实现分为2个步骤:首先去定义ACL,即定义一个测试条件,然后在条件获得知足时执行某特定的动做,如阻止请求或转发至某特定的后端。acl不能用于default段中。

定义ACL的语法格式以下。

acl <aclname> <criterion> [flags] [operator] [<value>] ...

(1)、aclname

<aclname>:ACL名称,区分字符大小写,且其只能包含大小写字母、数字、-(链接线)、_(下划线)、.(点号)和:(冒号);在haproxy中,acl能够重名,这能够把多个测试条件定义为一个共同的acl;这多个相同的acl彼此之间的关系为"或"关系,也就是只须要知足其中一个就算是匹配了。


(2)、criterion(标准、规范、准则的意思)

criterion表示测试标准或者测试条件,即对什么样的数据进行测试。这些数据一般指的是value。常见的criterion以下表所示:

criterion(测试标准) 匹配意义

src

匹配的是源ip地址或某个网络。如:

acl safe_ip src  127.0.0.1/8



src_port

匹配的是源端口。如:

acl safe_port src_port 80



dst 匹配的目标ip或网络

dst_port 匹配的是目标端口

path_beg <string>

用于测试请求的url中的path是否以指定的<string>结束的。以下实例用于测试请求是否以.gif、.png、.jpg、.css、.js结束的静态内容。

acl url_static  path_end         .gif .png .jpg .css .js


path_end <string>

用于测试请求的url中的path是否以指定的<string>开始的。例如,以下实例用于测试请求的是否以/static、/p_w_picpaths、/img、/css开头的静态内容。

acl url_static  path_beg         /static /p_w_picpaths /img /css


hdr_beg <string>

用于测试请求报文的指定首部的开头部分是否符合<string>指定的模式。例如,下面的例子用于测试请求报文中的主机是以img、video、download或ftp开始的静态内容主机。

acl host_static hdr_beg(host) -i img. video. download. ftp.

hdr_end <string>

用于测试请求报文的指定首部的结尾部分是否符合<string>指定的模式。例如,下面的例子用记测试请求报文中的主机是否属于.xsl.com这个域内的主机.

acl host_static hdr_end(host) -i .xsl.com



fe_sess_rate(frontend) <integer>

用于测试指定的frontend(或当前frontend)上的会话建立速率是否知足指定的条件;经常使用于为frontend指定一个合理的会话建立速率的上限以防止服务被滥用。例以下面的例子限定入站邮件速率不能大于50封/秒,全部在此指定范围以外的请求都将被延时50毫秒。

acl too_fast fe_sess_rate ge 50





(3)、flags

目前haproxy-1.5版本中,支持的flags有6个:

-i:表示不区分value中模式匹配字符串的大小写。

-f:从文件中加载模式

-m:用一个特定的模式来匹配方法

-n:禁止dns解析

-M:加载一个映射文件

--:标志符的强制结束标记,在模式中的字符串像标记符时使用


(4)、operator

operator表示操做符,常见的操做符有以下几个:

eq:等于,表示测试值至少等于一个value才为真。

ge:大于或等于,表示测试值大于或等于至少一个value才为真。

gt:大于,表示测试值大于至少一个value才为真。

le:小于或等于,表示测试值小于或等于至少一个value才为真。

lt:小于,表示测试值小于至少一个value才为真。


(5)、value

value表示acl测试条件支持的值,一般有这几类值:

--整数或整数范围:如1024:65535表示从1024至65535;仅支持使用正整数(若是出现相似小数的标识,其为一般为版本测试),且支持使用的操做符有5个,分别为eq、ge、gt、le和lt;

--字符串:支持使用“-i”以忽略字符大小写,支持使用“\”进行转义;若是在模式首部出现了-i,能够在其以前使用“--”标志位;

--正则表达式:其机制类同字符串匹配;

--IP地址及网络地址


(6)、组合测试操做符

同一个acl中能够指定多个测试条件,这些测试条件须要由逻辑操做符指定其关系。条件间的组合测试关系有三种:“与”(默认即为与操做)、“或”(使用“||”操做符)以及“非”(使用“!”操做符)。



七、acl的action

acl被定义后,还须要对匹配的acl的数据流执行相应的action。因为acl一般被用来阻塞请求或转发请求至后端的,所以acl的action一般有2种方式:

(1)、转发请求至后端服务器

一般将请求转发至后端服务器,须要借助use-backend参数来完成。use-backend的使用以下:

use_backend <backend> [{if | unless} <condition>]  

if表示condition符合时则执行操做;unless表示condition不符合时执行其操做。

use-backend不能用于default段中。


(2)、对请求作过滤(阻塞请求)

haproxy实现过滤请求有种方式:一是在4层作过滤;二是在7层作过滤。

基于4层作过滤,使用tcp-request contend和tcp-response content来实现。

tcp-request contet表示基于请求来实现4层过滤,其语法格式为:

tcp-request content <action> [{if | unless} <condition>]

tcp-response content表示基于响应报文作4层过滤

tcp-response content <action> [{if | unless} <condition>]

这些action包括:accept、reject、capture


如:不容许源ip属于192.168.106.0/24网段内的主机访问;除此以外,其余网段内的ip均可以访问。

backend webserver

acl deny_ip src 192.168.106.0/24

        tcp-request content reject if deny_ip

        #tcp-request inspect-delay 10s

        tcp-request content accept


基于7层作过滤,须要使用http-request来实现

基本语法格式为:http-request {allow|deny|...} [{if|unless} condition]

如:除了url中的path以.html结尾的禁止访问。其余的均可以访问。

backend webserver

acl deny_url path_end -i .html

        http-request deny if deny_url

        http-request allow



 

5、HAproxy的应用

接下来就是HAproxy的实战部分。

1、HAproxy做为httpd反向代理服务器的应用

2、HAproxy结合keepalived实现httpd的高可用服务

相关文章
相关标签/搜索