Nginx之反向代理配置(一)

  前文咱们聊了下Nginx做为web服务器配置https、日志模块的经常使用配置、rewrite模块重写用户请求的url,回顾请参考http://www.javashuo.com/article/p-opoqpxfm-cv.html;今天来聊一聊Nginx是怎么反向代理,怎么防盗链;前文的最后咱们提到了防盗链,到底什么是防盗链呢?在咱们平时上网相信不少人都遇到过这样的状况,咱们打开一个网页,在里面能够看到不少裂图,看不到图片,或者看到此图片仅某某网站网友交流使用之类的,这就是防盗链;咱们知道在一个网页里面,里面的资源不必定都是来自一个服务器的,好比图片极可能来自图片服务器,js、css极可能来自其余静态资源服务器上;因此稍微懂点的人就知道如何将别人网站上的图片、js文件呀连接到本身的网站使用,这种行为就叫盗用别人家的资源,简称盗链;这里就不过多阐述了;咱们来讲说nginx的referer模块吧。css

  1、ngx_http_referer_module:此模块用于阻止对“Referer”头字段中包含无效值的请求的站点访问;html

  一般一次http事务就是客户端请求服务端,服务端响应客户端的一个流程;客户端请求服务端,会在请求头部添加一些信息,好比用什么方法请求服务端的资源呀,资源的路径是什么,用的http协议版本是多少,请求的host主机上什么等等;其中若是客户端是直接从浏览器上介入域名直接访问web服务器,其头部是没有referer这个信息的;referer是什么?referer是记录客户端从哪里来访问咱们客户端的,若是客户端是经过某个网站点击访问到咱们的服务器时,它发过来的请求头部就有对应网站的域名;防盗链就是利用referer这个头部的信息来作控制的;linux

  一、valid_referers none | blocked | server_names | string ...;定义合法referer合法值;这里解释下,none表示请求头部没有referer字段,一般状况下没有referer字段都是从浏览器(web客户端)介入域名访问的;blocked表示请求头部有referer字段,可是没有值,像这种请求咱们是没法判断客户端是从哪里访问咱们服务器的,一般状况咱们把这类请求时容许访问的;server_name表示请求头部有referer字段和信息,其值就是对方主机名;咱们在定义一个合法的referer时,是能够用通配或正则去匹配server_name;nginx

  示例:web

valid_referers none blocked server_names
               *.example.com example.* www.example.org/galleries/
               ~\.google\.;

  提示:以上配置表示合法的referer有 ,请求报文里没有referer字段的请求,有referer字段可是没有值的,以任何内容开头结尾是.example.com的主机名或者是以example开头的主机,或者referer是www.example.org/galleries/或者是包含google的都是合法的,意思是客户端请求报文的referer信息知足咱们定义的合法信息,或者说可以被咱们定义的合法referer匹配到,咱们就说该用户是一个合法的请求,理所固然的是应该容许被访问的;固然咱们定义了合法referer,若是客户端请求报文里的referer信息不配咱们定义的合法referer匹配,咱们就说这里客户端的referer是非法的,是不被容许的,理所固然的就应该作其余处理;这个是ngxin里内部的机制,不被合法referer所匹配的referer都是非法的referer,一般是用$invalid_referer保留这些不合法referer;或者咱们这样理解,不被合法referer所匹配的请求报文就会被$invalid_referer所匹配;有了这种机制咱们就能够明肯定义那些请求时合法的,相对的那些请求是不合法的,对于不合法的咱们能够这么处理;以下算法

   提示:以上配置表示若是客户端请求报文的referer信息不是.ilinux.com结尾或者不是以www.ilinux.开头 或者 不是www.ilinux.io 或者不包含.baidu.或者.google. 咱们都响应该客户端请求响应码为403;后端

  2、ngx_http_proxy_module:此模块容许将请求传递到另外一个服务器。浏览器

  一、proxy_pass URL;该指令主要做用是用来设置被代理服务器地址的,能够说主机名称,IP地址加端口的形式;其中URL表示被代理服务器的地址,包含协议、主机名或IP加端口、URI等。传输协议一般是“http”或者"https";若是咱们被代理的是一个本地unix-domain套接字时,也支持以http://或https://加unix套接字路径的形式;若是咱们代理的是一组服务器时,咱们能够用upstream指令把该组服务器同一归并为一个名称的组服务器组,固然这是咱们后面要聊的nginx做为负载均衡的配置;这里特别要说明的是URL中是否包含URI,什么意思呢,就是URL不包含URI的意思就是 被代理的URL没有URI,就只有协议IP地址或域名或主机名,这种就叫不带URI;带URI就表示除了协议主机名或域名或IP地址外,后面还有RUI;对于这两种状况Nginx处理逻辑上不同的,若是RUL不包含URI 那么nginx服务器不会改变源地址的URI;若是URL包含URI,nginx服务器将会使用新的URI替换原来的URI;缓存

  示例:bash

   提示:以上配置就是咱们所的URL不包含URI的状况,用户请求www.test.com/en/docs/将会被该location匹配到,而后将访问www.test.com/en/docs/将会被代理到http://nginx.org/en/docs/;咱们能够理解为被代理的URL不包含URI时,Nginx服务器会把用户请求的URI看成被代理服务器的URI;因此以上配置就表示,用户访问www.test.com/en/docs/将被代理至http://nginx.org/en/docs/

  提示:在作以上实验时,须要在Windows上作好解析www.test.com;Windows上须要在C:\Windows\System32\drivers\etc\hosts文件中添加一条解析记录,语法同Linux里的hosts同样192.168.0.30 www.ilinux.io www.test.com;

   提示:以上配置就是URL包含URI的状况,这种状况Nginx服务器会把用户请求的URI替换成被代理的URI;以上面的配置示例,若是用户请求www.test.com/test/那么这个请求到了nginx服务器时,nginx会把用户原有的URI/test/替换成/en/docs/,因此用户请求www.test.com/test/就会被代理至http://nginx.org/en/docs/;

  提示:经过上面的演示,咱们能够总结为,若是咱们不想改变源请求的URI,那么咱们在后端代理时就不带URI,若是咱们想更改源请求URI,那么咱们在后端代理时,就带上URI便可

  理解了上面咱们所的URL包含或不包含URI,咱们就不难理解下面的例子

  示例:proxy_pass URL末尾是否带“/”问题

   提示:以上配置和咱们以前的第一个示例就只多了一个“/”;多一个“/”在咱们看来是没关系,但它对nginx来讲,意思却变了,就以咱们上面说的,这种就是URL包含URI的状况,nginx会把后面的“/”认为是URI,不是认为,它原本就是一个URI;当客户端请求www.test.com/en/docs/时,nginx会把该请求代理至http://nginx.org/;固然这样处理后的结果确定和咱们以前的结果是彻底不同的,http://nginx.org/就表示请求nginx.org的主页;

  提示:和第一个示例同样的URL,对于proxy_pass URL后面没有"/"和有“/”被代理响应的结果是不同的;

  除了上面URL包含或不包含URI问题须要咱们特别注意外,咱们还要注意,若是location定义URI时使用了正则,或在if语句或在limit_execept中使用了proxy_pass指令,则proxy_pass 以后不能使用URI;用户请求时传递的URI将直接附加代理到的服务器以后;意思就是URL包含URI的状况不能在location 使用了正则匹配URL,或者URL包含URI的状况不容许用在if语句中  或limit_except中

  示例:

   提示:这种配置咱们在语法检查的时候就通不过,要想被经过,咱们只须要把proxy_pass指令后面的URI去掉便可

   提示:总结一点就是location中使用了正则匹配 URL时,后面代理是不能有URI的,不然语法错误;

   二、proxy_set_header field value;设定发日后端主机的请求报文的请求首部的值;可用在http,server,location配置段中

proxy_set_header X-Real-IP  $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;

  提示:以上配置表示在用户请求经过代理发送给后端主机时,在其请求头部加上X-Real-IP这个字段,而且这个字段的值是$remote_addr(客户端IP地址)和X-Forwarded-For字段,其值为$proxy_add_x_forwarded_for;$proxy_add_x_forwarded_for 这个变量是也是记录IP地址的,不一样的是,这个变量它记录了客户端IP和代理服务端ip,两个IP分别用逗号隔开,若是没有代理服务器的场景,这个变量的意义同$remote_addr是同样的,都是记录客户端客户端IP

  三、proxy_cache_path:定义可用于proxy功能的缓存,此指令只可配置在http配置段;

  语法:

    proxy_cache_path path [levels=levels] [use_temp_path=on|off] keys_zone=name:size [inactive=time] [max_size=size] [manager_files=number] [manager_sleep=time] [manager_threshold=time] [loader_files=number] [loader_sleep=time] [loader_threshold=time] [purger=on|off] [purger_files=number] [purger_sleep=time] [purger_threshold=time];

    path:表示设置缓存数据存放路径,该路径必须事先存在;

    levels;表示设置存放缓存数据的目录级别,这个和前面说的nginx缓存目录同样。levels=1:2表示两级目录,且一级目录是一个字符哈希目录,二级目录是两个字符的哈希目录,目录名称是基于URL哈希算法获取到的;

    keys_zone=name:size 表示设置缓存索引在内存区域的名称和大小;

    inactive=time设置非活动缓存时间,在指定的时间内若是该缓存项没有被命中,nginx就会强制把该缓存从磁盘上删除,若是下次有人访问时在缓存,依次循环;默认10分钟;

    max_size=size:设置磁盘中缓存数据的大小限制,当缓存数据超过咱们设定的大小时,就是用LRU算法来删除缓存;

    loader_files=number:设置缓存索引重建进程每次加载的数据元素的数量上限;

    loader_sleep=time:设置缓存索引重建进程在一次遍历结束、下次遍历开始之间的暂停时长,默认是50ms

    loader_threshold=time:设置遍历一次磁盘缓存源数据的时间上限,默认设置为200ms

  一般状况下咱们不须要设置这么多选项,只须要把前三个选项设置好就好了,没有特殊的要求后面的选项咱们用默认值就能够

  示例:

   提示:以上配置表示定义代理缓存路径是/cache/proxy/nginx 目录级别是1:2:1  缓存索引重建进程内存区域名称为proxy_cache,大小为10M 对于磁盘上的/cache/proxy/nginx/目录最大缓存空间为2g;这样设置后,咱们就能够在各个server或location中来调用此缓存定义

  四、proxy_cache zone | off;指明要调用的缓存,或关闭缓存机制;此指令可用于http,server,location配置段中;

  示例

   提示:这样去调用缓存空间进行缓存是不可以缓存的,由于咱们调用缓存空间是有条件的,好比咱们要对那些请求方法的请求进行缓存?对不一样响应码的资源缓存多久?是否在后端服务器出现错误时,咱们继续使用缓存来响应?因此咱们如今虽然配置了调用缓存空间,可是咱们服务器仍是不知道怎么去缓存客户访问的内容;因此它干脆就不给缓存;

  示例:咱们只调用了缓存空间,没有配置其余配置,用户访问的数据是否可以缓存下来呢?

  提示:能够看到咱们只配置缓存空间而后调用是不行的,咱们还须要指定缓存的key是什么 ,对客户端使用的那些方法进行缓存,对不一样的响应码的资源缓存多久,这是调用缓存空间的几个必要的配置,咱们须要加上才行;

  五、proxy_cache_key:定义缓存key,默认是$scheme$proxy_host$request_uri,它这个默认就是缓存的key是协议加代理主机地址或主机名或FQDN和用户请求的uri看成缓存的KEY;也就是说服务端怎么去找缓存的方式,对应key的定义;

  六、proxy_cache_methods METHODS:定义缓存用户的请求方式,也就是说那些请求方法的资源咱们要进行缓存,默认是GET HEAD;

  七、proxy_cache_valid code:定义不一样的响应码的资源缓存时长;

  八、proxy_cache_use_stale error |timeout|……:定义后端服务器基于那种状态使用缓存,默认是不基于后端服务器状态使用缓存;好比后端服务器发生错误,是否用缓存中的内容响应客户端?若是咱们定义 proxy_cache_use_stale http 403就表示后端服务器若是响应代理服务器403,咱们代理服务器就是用以前的缓存,响应客户端;

  示例:

   提示:以上配置表示使用proxy_cache缓存空间,缓存key是用户请求的uri进行缓存,对用户使用GET 和HEAD方法请求的资源进行缓存,对响应码是200 302的资源缓存15分钟,对响应码是404的资源缓存1分钟,后端服务器出现500 或502的错误,代理服务器使用之前的缓存响应客户端;

   提示:可看到浏览器请求了两个uri,在对应的缓存目录里就存在两个缓存项;这里面每个缓存项就是对应一个用户请求过多URI;一般状况咱们启用了Nginx代理缓存功能时,用户第一次访问就会很慢,可是只要把数据缓存下来后,后续的用户在访问相同的URI时,这个速度就会有明显的提高;

   总结对于nginx的缓存,咱们首先在http配置段定义一个缓存空间,而后在各server或location中调用咱们定义的缓存空间,并明确说明各类响应码的资源缓存多长时间,对于proxy_cache_key 和 proxy_cache_methods是能够不指定的,不指定就表明使用默认值,从上面的配置咱们其实就只定义响应码是多少的资源缓存多久,其余的按照默认来,它也是能够进行缓存的;

相关文章
相关标签/搜索