「查缺补漏」巩固你的Nginx知识体系

时间 2020-09-10

标签补漏巩固 nginx 知识体系栏目 Nginx 繁體版

原文原文链接

Nginx篇

基本介绍

Nginx是一款轻量级的 Web服务器 / 反向代理服务器 / 电子邮件（IMAP/POP3）代理服务器，主要的优势是：javascript

支持高并发链接，尤为是静态界面，官方测试Nginx可以支撑5万并发链接php
内存占用极低css
配置简单，使用灵活，能够基于自身须要加强其功能，同时支持自定义模块的开发html

使用灵活：能够根据须要，配置不一样的负载均衡模式，URL地址重写等功能前端
稳定性高，在进行反向代理时，宕机的几率很低java
支持热部署，应用启动重载很是迅速node

基础使用

Windows版

安装linux

文件下载地址：http://nginx.org/en/docs/windows.htmlnginx

若是下载很慢能够用该连接：web

百度云盘连接: https://pan.baidu.com/s/1r3mSEGhmz4HA46Cw9w6QTQ 提取码: d8bi

解压便可

基本命令

# 启动
# 建议使用第一种，第二种会使窗口一直处于执行中，不能进行其余命令操做
C:\server\nginx-1.19.2> start nginx
C:\server\nginx-1.19.2> nginx.exe

# 中止
# stop是快速中止nginx，可能并不保存相关信息；quit是完整有序的中止nginx，并保存相关信息
C:\server\nginx-1.19.2> nginx.exe -s stop
C:\server\nginx-1.19.2> nginx.exe -s quit

# 重载Nginx
# 当配置信息修改，须要从新载入这些配置时使用此命令
C:\server\nginx-1.19.2> nginx.exe -s reload

# 从新打开日志文件
C:\server\nginx-1.19.2> nginx.exe -s reopen

# 查看Nginx版本
C:\server\nginx-1.19.2> nginx -v

# 查看配置文件是否正确
C:\server\nginx-1.19.2> nginx -t

简单Demo

利用SwitchHost软件编辑域名和IP的映射关系，或到目录C:\Windows\System32\drivers\etc下，编辑hosts文件，增长配置以下（Mac 同理）
```
127.0.0.1  kerwin.demo.com
```
PS：推荐使用软件SwitchHost，工做时几乎是必用的
修改配置，如图所示：

效果如图所示：

Nginx在架构体系中的做用

网关（面向客户的总入口）
虚拟主机（为不一样域名 / ip / 端口提供服务。如：VPS虚拟服务器）
路由（正向代理 / 反向代理）
静态服务器
负载集群（提供负载均衡）

网关

网关：能够简单的理解为用户请求和服务器响应的关口，即面向用户的总入口

网关能够拦截客户端全部请求，对该请求进行权限控制、负载均衡、日志管理、接口调用监控等，所以不管使用什么架构体系，均可以使用Nginx做为最外层的网关

虚拟主机

虚拟主机的定义：虚拟主机是一种特殊的软硬件技术，它能够将网络上的每一台计算机分红多个虚拟主机，每一个虚拟主机能够独立对外提供 www 服务，这样就能够实现一台主机对外提供多个 web 服务，每一个虚拟主机之间是独立的，互不影响的。

经过 Nginx 能够实现虚拟主机的配置，Nginx 支持三种类型的虚拟主机配置

基于 IP 的虚拟主机
基于域名的虚拟主机
基于端口的虚拟主机

表现形式其实你们多见过，即：

# 每一个 server 就是一个虚拟主机
http {
    # ...
    server{
        # ...
    }
    
    # ...
    server{
        # ...
    }
}

路由

在Nginx的配置文件中，咱们常常能够看到这样的配置：

location / {
	#....
}

location在此处就起到了路由的做用，好比咱们在同一个虚拟主机内定义两个不一样的路由，以下：

location / {
	proxy_pass https://www.baidu.com/;
}
		
location /api {
	proxy_pass https://apinew.juejin.im/user_api/v1/user/get?aid=2608&user_id=1275089220013336&not_self=1;
 }

效果以下：

由于路由的存在，为咱们后续解决跨域问题提供了必定的思路，同时配置内容和API接口等更加方便

PS：路由的功能很是强大，支持正则匹配

正向与反向代理

此处额外解释一下proxy_pass的含义

在Nginx中配置proxy_pass代理转发时，若是在proxy_pass后面的url加 /，表示绝对根路径；

若是没有/，表示相对路径

正向代理

代理客户;
隐藏真实的客户，为客户端收发请求，使真实客户端对服务器不可见;
一个局域网内的全部用户可能被一台服务器作了正向代理，由该台服务器负责 HTTP 请求;
意味着同服务器作通讯的是正向代理服务器;

反向代理

代理服务器;
隐藏了真实的服务器，为服务器收发请求，使真实服务器对客户端不可见;
负载均衡服务器，将用户的请求分发到空闲的服务器上;
意味着用户和负载均衡服务器直接通讯，即用户解析服务器域名时获得的是负载均衡服务器的 IP ;

共同点

都是作为服务器和客户端的中间层
均可以增强内网的安全性，阻止 web 攻击
均可以作缓存机制，提升访问速度

区别

正向代理实际上是客户端的代理,反向代理则是服务器的代理。
正向代理中，服务器并不知道真正的客户端究竟是谁；而在反向代理中，客户端也不知道真正的服务器是谁。
做用不一样。正向代理主要是用来解决访问限制问题；而反向代理则是提供负载均衡、安全防御等做用。

静态服务器

静态服务器是Nginx的强项，使用很是容易，在默认配置下自己就是指向了静态的HTML界面，如：

location / {
	root   html;
	index  index.html index.htm;
}

因此前端同窗们，若是构建好了界面，能够进行相应的配置，把界面指向目标文件夹中便可，root指的是html文件夹

负载均衡

负载均衡功能是Nginx另外一大杀手锏，一共有5种方式，着重介绍一下。

轮询

每一个请求按时间顺序逐一分配到不一样的后端服务器，若是后端服务器down掉，能自动剔除，配置以下：

upstream tomcatserver {
	server 192.168.0.1;
	server 192.168.0.2;
}

轮询策略是默认的负载均衡策略

指定权重

即在轮询的基础之上，增长权重的概念，weight和访问比率成正比，用于后端服务器性能不均的状况，配置以下：

upstream tomcatserver {
	server 192.168.0.1 weight=1;
	server 192.168.0.2 weight=10;
}

IP Hash

每一个请求按访问ip的hash结果分配，这样每一个访客固定访问一个后端服务器，能够解决session的问题，配置以下：

upstream tomcatserver {
	ip_hash;
	server 192.168.0.14:88;
	server 192.168.0.15:80;
}

fair

第三方提供的负载均衡策略，按后端服务器的响应时间来分配请求，响应时间短的优先分配，生产环境中有各类状况可能致使响应时间波动，须要慎用

upstream tomcatserver {
	server server1;
	server server2;
	fair;
}

url_hash

第三方提供的负载均衡策略，按访问url的hash结果来分配请求，使每一个url定向到同一个后端服务器

upstream tomcatserver {
	server squid1:3128;
	server squid2:3128;
	hash $request_uri;
	hash_method crc32;
}

Nginx的模块化设计

先来看看Nginx模块架构图：

这5个模块由上到下重要性一次递减。

（1）核心模块；

核心模块是Nginx服务器正常运行必不可少的模块，如同操做系统的内核。它提供了Nginx最基本的核心服务。像进程管理、权限控制、错误日志记录等；

（2）标准HTTP模块；

标准HTTP模块支持标准的HTTP的功能，如：端口配置，网页编码设置，HTTP响应头设置等；

（3）可选HTTP模块；

可选HTTP模块主要用于扩展标准的HTTP功能，让Nginx能处理一些特殊的服务，如：解析GeoIP请求，SSL支持等；

（4）邮件服务模块；

邮件服务模块主要用于支持Nginx的邮件服务；

（5）第三方模块；

第三方模块是为了扩展Nginx服务器应用，完成开发者想要的功能，如：Lua支持，JSON支持等；

模块化设计使得Nginx方便开发和扩展，功能很强大

Nginx的请求处理流程

基于上文中的Nginx模块化结构，咱们很容易想到，在请求的处理阶段也会经历诸多的过程，Nginx 将各功能模块组织成一条链，当有请求到达的时候，请求依次通过这条链上的部分或者所有模块，进行处理，每一个模块实现特定的功能。

一个 HTTP Request 的处理过程：

初始化 HTTP Request
处理请求头、处理请求体
若是有的话，调用与此请求（URL 或者 Location）关联的 handler
依次调用各 phase handler 进行处理
输出内容依次通过 filter 模块处理

Nginx的多进程模型

Nginx 在启动后，会有一个 master 进程和多个 worker 进程。

master 进程主要用来管理worker 进程，包括接收来自外界的信号，向各 worker 进程发送信号，监控 worker 进程的运行状态以及启动 worker 进程。

worker 进程是用来处理来自客户端的请求事件。多个 worker 进程之间是对等的，它们同等竞争来自客户端的请求，各进程互相独立，一个请求只能在一个 worker 进程中处理。worker 进程的个数是能够设置的，通常会设置与机器 CPU 核数一致，这里面的缘由与事件处理模型有关

Nginx 的进程模型，可由下图来表示：

这种设计带来如下优势：

1）利用多核系统的并发处理能力

现代操做系统已经支持多核 CPU 架构，这使得多个进程能够分别占用不一样的 CPU 核心来工做。Nginx 中全部的 worker 工做进程都是彻底平等的。这提升了网络性能、下降了请求的时延。

2）负载均衡

多个 worker 工做进程经过进程间通讯来实现负载均衡，即一个请求到来时更容易被分配到负载较轻的 worker 工做进程中处理。这也在必定程度上提升了网络性能、下降了请求的时延。

3）管理进程会负责监控工做进程的状态，并负责管理其行为

管理进程不会占用多少系统资源，它只是用来启动、中止、监控或使用其余行为来控制工做进程。首先，这提升了系统的可靠性，当 worker 进程出现问题时，管理进程能够启动新的工做进程来避免系统性能的降低。其次，管理进程支持 Nginx 服务运行中的程序升级、配置项修改等操做，这种设计使得动态可扩展性、动态定制性较容易实现。

Nginx如何解决惊群现象

什么是惊群现象？

惊群效应（thundering herd）是指多进程（多线程）在同时阻塞等待同一个事件的时候（休眠状态），若是等待的这个事件发生，那么他就会唤醒等待的全部进程（或者线程），可是最终却只能有一个进程（线程）得到这个时间的“控制权”，对该事件进行处理，而其余进程（线程）获取“控制权”失败，只能从新进入休眠状态，这种现象和性能浪费就叫作惊群效应。

上文中介绍了Nginx的多进程模型，而典型的多进程模型正如文中所说，多个worker进程之间是对等的，所以当一个请求到来的时候，全部进程会同时开始竞争，最终执行的又只有一个，这样势必会形成资源的浪费。

Nginx解决该问题的思路是：不让多个进程在同一时间监听接受链接的socket，而是让每一个进程轮流监听，这样当有链接过来的时候，就只有一个进程在监听那确定就没有惊群的问题。

具体作法是：利用一把进程间锁，每一个进程中都尝试得到这把锁，若是获取成功将监听socket加入wait集合中，并设置超时等待链接到来，没有得到锁的进程则将监听socket从wait集合去除。

事件驱动模型和异步非阻塞IO

承接上文，咱们知道了Nginx的多进程模型后了解到，其工做进程实际上只有几个，但为何依然能得到如此高的并发性能，固然与其采用的事件驱动模型和异步非阻塞IO的方式来处理请求有关。

Nginx服务器响应和处理Web请求的过程，是基于事件驱动模型的，它包含事件收集器、事件发送器和事件处理器等三部分基本单元，着重关注事件处理器，而通常状况下事件处理器有这么几种办法：

事件发送器每传递过来一个请求，目标对象就建立一个新的进程
事件发送器每传递过来一个请求，目标对象就建立一个新的线程，来进行处理
事件发送器每传递过来一个请求，目标对象就将其放入一个待处理事件的列表，使用非阻塞I/O方式调用

第三种方式，在编写程序代码时，逻辑比前面两种都复杂。大多数网络服务器采用了第三种方式，逐渐造成了所谓的事件驱动处理库。

事件驱动处理库又被称为多路IO复用方法，最多见的包括如下三种：select模型，poll模型和epoll模型。

其中Nginx就默认使用的是epoll模型，同时也支持其余事件模型。

epoll的帮助就在于其提供了一种机制，可让进程同时处理多个并发请求，不用关心IO调用的具体状态。IO调用彻底由事件驱动模型来管理，这样一来，当某个工做进程接收到客户端的请求之后，调用IO进行处理，若是不能当即获得结果，就去处理其余的请求；而工做进程在此期间也无需等待响应，能够去处理其余事情；当IO返回时，epoll就会通知此工做进程；该进程获得通知后，会来继续处理未完的请求

Nginx配置的最佳实践

在生产环境或者开发环境中Nginx通常会代理多个虚拟主机，若是把全部的配置文件写在默认的nginx.conf中，看起来会很是臃肿，所以建议将每个虚拟文件单独放置一个文件夹，Nginx支持这样的配置，以下：

http {
	# 省略中间配置

	# 引用该目录下以 .conf 文件结尾的配置
    include /etc/nginx/conf.d/*.conf;
}

具体文件配置如：

# Demo
upstream web_pro_testin {
	server 10.42.46.70:6003 max_fails=3 fail_timeout=20s;
	ip_hash;
}
 
server {
	listen 80;
	server_name web.pro.testin.cn;
	location / {
		proxy_pass http://web_pro_testin;
		proxy_redirect off;
		proxy_set_header Host $host;
		proxy_set_header X-Real-IP $remote_addr;
    }
 
    location ~ ^/(WEB-INF)/ {
		deny all;
    }
}

Nginx全量配置参数说明

# 运行用户
user www-data;    

# 启动进程,一般设置成和cpu的数量相等
worker_processes  6;

# 全局错误日志定义类型，[debug | info | notice | warn | error | crit]
error_log  logs/error.log;
error_log  logs/error.log  notice;
error_log  logs/error.log  info;

# 进程pid文件
pid        /var/run/nginx.pid;

# 工做模式及链接数上限
events {
    # 仅用于linux2.6以上内核,能够大大提升nginx的性能
    use   epoll; 
    
    # 单个后台worker process进程的最大并发连接数
    worker_connections  1024;     
    
    # 客户端请求头部的缓冲区大小
    client_header_buffer_size 4k;
    
    # keepalive 超时时间
    keepalive_timeout 60;      
    
    # 告诉nginx收到一个新链接通知后接受尽量多的链接
    # multi_accept on;            
}

#设定http服务器，利用它的反向代理功能提供负载均衡支持
http {
    # 文件扩展名与文件类型映射表义
    include       /etc/nginx/mime.types;
    
    # 默认文件类型
    default_type  application/octet-stream;
    
    # 默认编码
    charset utf-8;
    
    # 服务器名字的hash表大小
    server_names_hash_bucket_size 128;
    
    # 客户端请求头部的缓冲区大小
    client_header_buffer_size 32k;
    
    # 客户请求头缓冲大小
	large_client_header_buffers 4 64k;
	
	# 设定经过nginx上传文件的大小
    client_max_body_size 8m;
    
    # 开启目录列表访问，合适下载服务器，默认关闭。
    autoindex on;

    # sendfile 指令指定 nginx 是否调用 sendfile 函数（zero copy 方式）来输出文件，对于普通应用，
    # 必须设为 on,若是用来进行下载等应用磁盘IO重负载应用，可设置为 off，以平衡磁盘与网络I/O处理速度
    sendfile        on;
    
    # 此选项容许或禁止使用socke的TCP_CORK的选项，此选项仅在使用sendfile的时候使用
    #tcp_nopush     on;

    # 链接超时时间（单秒为秒）
    keepalive_timeout  65;
    
    
    # gzip模块设置
    gzip on;               #开启gzip压缩输出
    gzip_min_length 1k;    #最小压缩文件大小
    gzip_buffers 4 16k;    #压缩缓冲区
    gzip_http_version 1.0; #压缩版本（默认1.1，前端若是是squid2.5请使用1.0）
    gzip_comp_level 2;     #压缩等级
    gzip_types text/plain application/x-javascript text/css application/xml;
    gzip_vary on;

    # 开启限制IP链接数的时候须要使用
    #limit_zone crawler $binary_remote_addr 10m;
   
	# 指定虚拟主机的配置文件，方便管理
    include /etc/nginx/conf.d/*.conf;


    # 负载均衡配置
    upstream mysvr {
        # 请见上文中的五种配置
    }


   # 虚拟主机的配置
    server {
        
        # 监听端口
        listen 80;

        # 域名能够有多个，用空格隔开
        server_name www.jd.com jd.com;
        
        # 默认入口文件名称
        index index.html index.htm index.php;
        root /data/www/jd;

        # 图片缓存时间设置
        location ~ .*.(gif|jpg|jpeg|png|bmp|swf)${
            expires 10d;
        }
         
        #JS和CSS缓存时间设置
        location ~ .*.(js|css)?${
            expires 1h;
        }
         
        # 日志格式设定
        #$remote_addr与$http_x_forwarded_for用以记录客户端的ip地址；
        #$remote_user：用来记录客户端用户名称；
        #$time_local： 用来记录访问时间与时区；
        #$request： 用来记录请求的url与http协议；
        #$status： 用来记录请求状态；成功是200，
        #$body_bytes_sent ：记录发送给客户端文件主体内容大小；
        #$http_referer：用来记录从那个页面连接访问过来的；
        log_format access '$remote_addr - $remote_user [$time_local] "$request" '
        '$status $body_bytes_sent "$http_referer" '
        '"$http_user_agent" $http_x_forwarded_for';
         
        # 定义本虚拟主机的访问日志
        access_log  /usr/local/nginx/logs/host.access.log  main;
        access_log  /usr/local/nginx/logs/host.access.404.log  log404;
         
        # 对具体路由进行反向代理
        location /connect-controller {
 
            proxy_pass http://127.0.0.1:88;
            proxy_redirect off;
            proxy_set_header X-Real-IP $remote_addr;
             
            # 后端的Web服务器能够经过X-Forwarded-For获取用户真实IP
            proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
            proxy_set_header Host $host;

            # 容许客户端请求的最大单文件字节数
            client_max_body_size 10m;

            # 缓冲区代理缓冲用户端请求的最大字节数，
            client_body_buffer_size 128k;

            # 表示使nginx阻止HTTP应答代码为400或者更高的应答。
            proxy_intercept_errors on;

            # nginx跟后端服务器链接超时时间(代理链接超时)
            proxy_connect_timeout 90;

            # 后端服务器数据回传时间_就是在规定时间以内后端服务器必须传完全部的数据
            proxy_send_timeout 90;

            # 链接成功后，后端服务器响应的超时时间
            proxy_read_timeout 90;

            # 设置代理服务器（nginx）保存用户头信息的缓冲区大小
            proxy_buffer_size 4k;

            # 设置用于读取应答的缓冲区数目和大小，默认状况也为分页大小，根据操做系统的不一样多是4k或者8k
            proxy_buffers 4 32k;

            # 高负荷下缓冲大小（proxy_buffers*2）
            proxy_busy_buffers_size 64k;

            # 设置在写入proxy_temp_path时数据的大小，预防一个工做进程在传递文件时阻塞太长
            # 设定缓存文件夹大小，大于这个值，将从upstream服务器传
            proxy_temp_file_write_size 64k;
        }
        
        # 动静分离反向代理配置（多路由指向不一样的服务端或界面）
        location ~ .(jsp|jspx|do)?$ {
            proxy_set_header Host $host;
            proxy_set_header X-Real-IP $remote_addr;
            proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
            proxy_pass http://127.0.0.1:8080;
        }
    }
}

Nginx还能作什么

解决CORS跨域问题

思路有两个：

基于多路由，把跨域的两个请求发到各自的服务器，而后统一访问入口便可避免该问题
利用Nginx配置Headerd的功能，为其附上相应的请求头

适配 PC 或移动设备

根据用户设备不一样返回不一样样式的站点，之前常用的是纯前端的自适应布局，但不管是复杂性和易用性上面仍是不如分开编写的好，好比咱们常见的淘宝、京东......这些大型网站就都没有采用自适应，而是用分开制做的方式，根据用户请求的 user-agent 来判断是返回 PC 仍是 H5 站点

请求限流

Nginx按请求速率限速模块使用的是漏桶算法，即可以强行保证请求的实时处理速度不会超过设置的阈值，如：

http {
    limit_req_zone $binary_remote_addr zone=one:10m rate=1r/s;
    server {
        location /search/ {
            limit_req zone=one burst=5 nodelay;
        }
    }
}

其余技巧

如：图片防盗链，请求过滤，泛域名转发，配置HTTPS等等

可参考文章：《Nginx 从入门到实践，万字详解！》

常见问题

Q1：Nginx通常用做什么？

见上文中Nginx在架构体系中的做用，配合Nginx还能作什么做答便可

Q2：为何要用Nginx？

理解网关的必要性，以及Nginx保证高可用，负载均衡的能力

Q3：为何Nginx这么快？

若是一个server采用一个进程负责一个request的方式，那么进程数就是并发数。那么显而易见的，就是会有不少进程在等待中。等什么？最多的应该是等待网络传输。

而nginx 的异步非阻塞工做方式正是利用了这点等待的时间。在须要等待的时候，这些进程就空闲出来待命了。所以表现为少数几个进程就解决了大量的并发问题。

nginx是如何利用的呢，简单来讲：一样的4个进程，若是采用一个进程负责一个request的方式，那么，同时进来4个request以后，每一个进程就负责其中一个，直至会话关闭。期间，若是有第5个request进来了。就没法及时反应了，由于4个进程都没干完活呢，所以，通常有个调度进程，每当新进来了一个request，就新开个进程来处理。

nginx不这样，每进来一个request，会有一个worker进程去处理。但不是全程的处理，处理到什么程度呢？处理到可能发生阻塞的地方，好比向上游（后端）服务器转发request，并等待请求返回。那么，这个处理的worker不会这么傻等着，他会在发送完请求后，注册一个事件：“若是upstream返回了，告诉我一声，我再接着干”。因而他就休息去了。此时，若是再有request 进来，他就能够很快再按这种方式处理。而一旦上游服务器返回了，就会触发这个事件，worker才会来接手，这个request才会接着往下走。

因为web server的工做性质决定了每一个request的大部份生命都是在网络传输中，实际上花费在server机器上的时间片很少。这是几个进程就解决高并发的秘密所在。

总结：事件模型，异步非阻塞，多进程模型加上细节优化的共同做用

Q4：什么是正向代理和反向代理

见上文

Q5：Nginx负载均衡的算法有哪些？

见上文

Q6：Nginx如何解决的惊群现象？

见上文

Q7：Nginx为何不用多线程模型？

深刻理解多进程模型加上异步非阻塞IO的好处以及多线程模型中上下文切换的劣势

Q8：Nginx压缩功能有什么坏处吗？

很是耗费服务器的CPU

Q9：Nginx有几种进程模型?

实际上有两种，多进程和单进程，可是实际工做中都是多进程的

参考

最后

若是你以为这篇内容对你挺有帮助的话：

固然要点赞支持一下啦~
搜索并关注公众号「是Kerwin啊」，一块儿唠唠嗑~
再来看看最近几篇的「查漏补缺」系列吧，该系列会持续输出~
- 「查缺补漏」巩固你的Redis知识体系（笑）
- 「查缺补漏」巩固你的RocketMQ知识体系