Nginx之反向代理配置（一）

时间 2020-03-06

标签 nginx 反向代理配置栏目 Nginx 繁體版

原文原文链接

　　前文咱们聊了下Nginx做为web服务器配置https、日志模块的经常使用配置、rewrite模块重写用户请求的url，回顾请参考http://www.javashuo.com/article/p-opoqpxfm-cv.html；今天来聊一聊Nginx是怎么反向代理，怎么防盗链；前文的最后咱们提到了防盗链，到底什么是防盗链呢？在咱们平时上网相信不少人都遇到过这样的状况，咱们打开一个网页，在里面能够看到不少裂图，看不到图片，或者看到此图片仅某某网站网友交流使用之类的，这就是防盗链；咱们知道在一个网页里面，里面的资源不必定都是来自一个服务器的，好比图片极可能来自图片服务器，js、css极可能来自其余静态资源服务器上；因此稍微懂点的人就知道如何将别人网站上的图片、js文件呀连接到本身的网站使用，这种行为就叫盗用别人家的资源，简称盗链；这里就不过多阐述了；咱们来讲说nginx的referer模块吧。css

　　1、ngx_http_referer_module：此模块用于阻止对“Referer”头字段中包含无效值的请求的站点访问；html

　　一般一次http事务就是客户端请求服务端，服务端响应客户端的一个流程；客户端请求服务端，会在请求头部添加一些信息，好比用什么方法请求服务端的资源呀，资源的路径是什么，用的http协议版本是多少，请求的host主机上什么等等；其中若是客户端是直接从浏览器上介入域名直接访问web服务器，其头部是没有referer这个信息的；referer是什么？referer是记录客户端从哪里来访问咱们客户端的，若是客户端是经过某个网站点击访问到咱们的服务器时，它发过来的请求头部就有对应网站的域名；防盗链就是利用referer这个头部的信息来作控制的；linux

　　一、valid_referers none | blocked | server_names | string ...;定义合法referer合法值；这里解释下，none表示请求头部没有referer字段，一般状况下没有referer字段都是从浏览器（web客户端）介入域名访问的；blocked表示请求头部有referer字段，可是没有值，像这种请求咱们是没法判断客户端是从哪里访问咱们服务器的，一般状况咱们把这类请求时容许访问的；server_name表示请求头部有referer字段和信息，其值就是对方主机名；咱们在定义一个合法的referer时，是能够用通配或正则去匹配server_name；nginx

　　示例：web

valid_referers none blocked server_names
               *.example.com example.* www.example.org/galleries/
               ~\.google\.;

　　提示：以上配置表示合法的referer有，请求报文里没有referer字段的请求，有referer字段可是没有值的，以任何内容开头结尾是.example.com的主机名或者是以example开头的主机，或者referer是www.example.org/galleries/或者是包含google的都是合法的，意思是客户端请求报文的referer信息知足咱们定义的合法信息，或者说可以被咱们定义的合法referer匹配到，咱们就说该用户是一个合法的请求，理所固然的是应该容许被访问的；固然咱们定义了合法referer，若是客户端请求报文里的referer信息不配咱们定义的合法referer匹配，咱们就说这里客户端的referer是非法的，是不被容许的，理所固然的就应该作其余处理；这个是ngxin里内部的机制，不被合法referer所匹配的referer都是非法的referer，一般是用$invalid_referer保留这些不合法referer;或者咱们这样理解，不被合法referer所匹配的请求报文就会被$invalid_referer所匹配；有了这种机制咱们就能够明肯定义那些请求时合法的，相对的那些请求是不合法的，对于不合法的咱们能够这么处理；以下算法

　　提示：以上配置表示若是客户端请求报文的referer信息不是.ilinux.com结尾或者不是以www.ilinux.开头或者不是www.ilinux.io 或者不包含.baidu.或者.google. 咱们都响应该客户端请求响应码为403；后端

　　2、ngx_http_proxy_module：此模块容许将请求传递到另外一个服务器。浏览器

　　一、proxy_pass URL;该指令主要做用是用来设置被代理服务器地址的，能够说主机名称，IP地址加端口的形式；其中URL表示被代理服务器的地址，包含协议、主机名或IP加端口、URI等。传输协议一般是“http”或者"https"；若是咱们被代理的是一个本地unix-domain套接字时，也支持以http://或https://加unix套接字路径的形式；若是咱们代理的是一组服务器时，咱们能够用upstream指令把该组服务器同一归并为一个名称的组服务器组，固然这是咱们后面要聊的nginx做为负载均衡的配置；这里特别要说明的是URL中是否包含URI，什么意思呢，就是URL不包含URI的意思就是被代理的URL没有URI，就只有协议IP地址或域名或主机名，这种就叫不带URI；带URI就表示除了协议主机名或域名或IP地址外，后面还有RUI；对于这两种状况Nginx处理逻辑上不同的，若是RUL不包含URI 那么nginx服务器不会改变源地址的URI；若是URL包含URI，nginx服务器将会使用新的URI替换原来的URI；缓存

　　示例：bash

　　提示：以上配置就是咱们所的URL不包含URI的状况，用户请求www.test.com/en/docs/将会被该location匹配到，而后将访问www.test.com/en/docs/将会被代理到http://nginx.org/en/docs/；咱们能够理解为被代理的URL不包含URI时，Nginx服务器会把用户请求的URI看成被代理服务器的URI；因此以上配置就表示，用户访问www.test.com/en/docs/将被代理至http://nginx.org/en/docs/

　　提示：在作以上实验时，须要在Windows上作好解析www.test.com；Windows上须要在C:\Windows\System32\drivers\etc\hosts文件中添加一条解析记录，语法同Linux里的hosts同样192.168.0.30 www.ilinux.io www.test.com；

　　提示：以上配置就是URL包含URI的状况，这种状况Nginx服务器会把用户请求的URI替换成被代理的URI；以上面的配置示例，若是用户请求www.test.com/test/那么这个请求到了nginx服务器时，nginx会把用户原有的URI/test/替换成/en/docs/,因此用户请求www.test.com/test/就会被代理至http://nginx.org/en/docs/;

　　提示：经过上面的演示，咱们能够总结为，若是咱们不想改变源请求的URI，那么咱们在后端代理时就不带URI，若是咱们想更改源请求URI，那么咱们在后端代理时，就带上URI便可

　　理解了上面咱们所的URL包含或不包含URI，咱们就不难理解下面的例子

　　示例：proxy_pass URL末尾是否带“/”问题

　　提示：以上配置和咱们以前的第一个示例就只多了一个“/”；多一个“/”在咱们看来是没关系，但它对nginx来讲，意思却变了，就以咱们上面说的，这种就是URL包含URI的状况，nginx会把后面的“/”认为是URI，不是认为，它原本就是一个URI；当客户端请求www.test.com/en/docs/时，nginx会把该请求代理至http://nginx.org/；固然这样处理后的结果确定和咱们以前的结果是彻底不同的，http://nginx.org/就表示请求nginx.org的主页；

　　提示：和第一个示例同样的URL，对于proxy_pass URL后面没有"/"和有“/”被代理响应的结果是不同的；

　　除了上面URL包含或不包含URI问题须要咱们特别注意外，咱们还要注意，若是location定义URI时使用了正则，或在if语句或在limit_execept中使用了proxy_pass指令，则proxy_pass 以后不能使用URI；用户请求时传递的URI将直接附加代理到的服务器以后；意思就是URL包含URI的状况不能在location 使用了正则匹配URL，或者URL包含URI的状况不容许用在if语句中或limit_except中

　　示例：

　　提示：这种配置咱们在语法检查的时候就通不过，要想被经过，咱们只须要把proxy_pass指令后面的URI去掉便可

　　提示：总结一点就是location中使用了正则匹配 URL时，后面代理是不能有URI的，不然语法错误；

　　二、proxy_set_header field value;设定发日后端主机的请求报文的请求首部的值；可用在http,server,location配置段中

proxy_set_header X-Real-IP  $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;

　　提示：以上配置表示在用户请求经过代理发送给后端主机时，在其请求头部加上X-Real-IP这个字段，而且这个字段的值是$remote_addr（客户端IP地址）和X-Forwarded-For字段，其值为$proxy_add_x_forwarded_for；$proxy_add_x_forwarded_for 这个变量是也是记录IP地址的，不一样的是，这个变量它记录了客户端IP和代理服务端ip，两个IP分别用逗号隔开，若是没有代理服务器的场景，这个变量的意义同$remote_addr是同样的，都是记录客户端客户端IP

　　三、proxy_cache_path：定义可用于proxy功能的缓存，此指令只可配置在http配置段；

　　语法：

　　　　proxy_cache_path path [levels=levels] [use_temp_path=on|off] keys_zone=name:size [inactive=time] [max_size=size] [manager_files=number] [manager_sleep=time] [manager_threshold=time] [loader_files=number] [loader_sleep=time] [loader_threshold=time] [purger=on|off] [purger_files=number] [purger_sleep=time] [purger_threshold=time];

　　　　path：表示设置缓存数据存放路径，该路径必须事先存在；

　　　　levels;表示设置存放缓存数据的目录级别，这个和前面说的nginx缓存目录同样。levels=1:2表示两级目录，且一级目录是一个字符哈希目录，二级目录是两个字符的哈希目录，目录名称是基于URL哈希算法获取到的；

　　　　keys_zone=name:size 表示设置缓存索引在内存区域的名称和大小；

　　　　inactive=time设置非活动缓存时间，在指定的时间内若是该缓存项没有被命中，nginx就会强制把该缓存从磁盘上删除，若是下次有人访问时在缓存，依次循环；默认10分钟;

　　　　max_size=size:设置磁盘中缓存数据的大小限制，当缓存数据超过咱们设定的大小时，就是用LRU算法来删除缓存；

　　　　loader_files=number:设置缓存索引重建进程每次加载的数据元素的数量上限；

　　　　loader_sleep=time:设置缓存索引重建进程在一次遍历结束、下次遍历开始之间的暂停时长，默认是50ms

　　　　loader_threshold=time:设置遍历一次磁盘缓存源数据的时间上限，默认设置为200ms

　　一般状况下咱们不须要设置这么多选项，只须要把前三个选项设置好就好了，没有特殊的要求后面的选项咱们用默认值就能够

　　示例：

　　提示：以上配置表示定义代理缓存路径是/cache/proxy/nginx 目录级别是1：2：1 缓存索引重建进程内存区域名称为proxy_cache,大小为10M 对于磁盘上的/cache/proxy/nginx/目录最大缓存空间为2g；这样设置后，咱们就能够在各个server或location中来调用此缓存定义

　　四、proxy_cache zone | off;指明要调用的缓存，或关闭缓存机制；此指令可用于http,server,location配置段中；

　　示例

　　提示：这样去调用缓存空间进行缓存是不可以缓存的，由于咱们调用缓存空间是有条件的，好比咱们要对那些请求方法的请求进行缓存？对不一样响应码的资源缓存多久？是否在后端服务器出现错误时，咱们继续使用缓存来响应？因此咱们如今虽然配置了调用缓存空间，可是咱们服务器仍是不知道怎么去缓存客户访问的内容；因此它干脆就不给缓存；

　　示例：咱们只调用了缓存空间，没有配置其余配置，用户访问的数据是否可以缓存下来呢？

　　提示：能够看到咱们只配置缓存空间而后调用是不行的，咱们还须要指定缓存的key是什么，对客户端使用的那些方法进行缓存，对不一样的响应码的资源缓存多久，这是调用缓存空间的几个必要的配置，咱们须要加上才行；

　　五、proxy_cache_key:定义缓存key，默认是$scheme$proxy_host$request_uri，它这个默认就是缓存的key是协议加代理主机地址或主机名或FQDN和用户请求的uri看成缓存的KEY；也就是说服务端怎么去找缓存的方式，对应key的定义；

　　六、proxy_cache_methods METHODS：定义缓存用户的请求方式，也就是说那些请求方法的资源咱们要进行缓存，默认是GET HEAD；

　　七、proxy_cache_valid code:定义不一样的响应码的资源缓存时长；

　　八、proxy_cache_use_stale error |timeout|……：定义后端服务器基于那种状态使用缓存，默认是不基于后端服务器状态使用缓存；好比后端服务器发生错误，是否用缓存中的内容响应客户端？若是咱们定义 proxy_cache_use_stale http 403就表示后端服务器若是响应代理服务器403，咱们代理服务器就是用以前的缓存，响应客户端；

　　示例:

　　提示：以上配置表示使用proxy_cache缓存空间，缓存key是用户请求的uri进行缓存，对用户使用GET 和HEAD方法请求的资源进行缓存，对响应码是200 302的资源缓存15分钟，对响应码是404的资源缓存1分钟，后端服务器出现500 或502的错误，代理服务器使用之前的缓存响应客户端；

　　提示：可看到浏览器请求了两个uri，在对应的缓存目录里就存在两个缓存项；这里面每个缓存项就是对应一个用户请求过多URI;一般状况咱们启用了Nginx代理缓存功能时，用户第一次访问就会很慢，可是只要把数据缓存下来后，后续的用户在访问相同的URI时，这个速度就会有明显的提高；

　　总结对于nginx的缓存，咱们首先在http配置段定义一个缓存空间，而后在各server或location中调用咱们定义的缓存空间，并明确说明各类响应码的资源缓存多长时间，对于proxy_cache_key 和 proxy_cache_methods是能够不指定的，不指定就表明使用默认值，从上面的配置咱们其实就只定义响应码是多少的资源缓存多久，其余的按照默认来，它也是能够进行缓存的；