Nginx 入门指南

Nginx 模块通常被分红三大类：handler、filter 和 upstream。前面的章节中，读者已经了解了 handler、filter。利用这两类模块，能够使 Nginx 轻松完成任何单机工做。而本章介绍的 upstream 模块，将使 Nginx 跨越单机的限制，完成网络数据的接收、处理和转发。

数据转发功能，为 Nginx 提供了跨越单机的横向处理能力，使 Nginx 摆脱只能为终端节点提供单一功能的限制，而使它具有了网路应用级别的拆分、封装和整合的战略功能。在云模型大行其道的今天，数据转发是 Nginx 有能力构建一个网络应用的关键组件。固然，鉴于开发成本的问题，一个网络应用的关键组件一开始每每会采用高级编程语言开发。可是当系统到达必定规模，而且须要更重视性能的时候，为了达到所要求的性能目标，高级语言开发出的组件必须进行结构化修改。此时，对于修改代价而言，Nginx 的 upstream 模块呈现出极大的吸引力，由于它天生就快。做为附带，Nginx 的配置系统提供的层次化和松耦合使得系统的扩展性也达到比较高的程度。

upstream 模块接口

从本质上说，upstream 属于 handler，只是他不产生本身的内容，而是经过请求后端服务器获得内容，因此才称为 upstream（上游）。请求并取得响应内容的整个过程已经被封装到 Nginx 内部，因此 upstream 模块只须要开发若干回调函数，完成构造请求和解析响应等具体的工做。

memcached 模块分析

memcache 是一款高性能的分布式 cache 系统，获得了很是普遍的应用。memcache 定义了一套私有通讯协议，使得不能经过 HTTP 请求来访问 memcache。但协议自己简单高效，并且 memcache 使用普遍，因此大部分现代开发语言和平台都提供了 memcache 支持，方便开发者使用 memcache。

Nginx 提供了 ngx_http_memcached 模块，提供从 memcache 读取数据的功能，而不提供向 memcache 写数据的功能。做为 Web 服务器，这种设计是能够接受的。

下面，咱们开始分析 ngx_http_memcached 模块，一窥 upstream 的奥秘。

Handler 模块？

初看 memcached 模块，你们可能以为并没有特别之处。若是稍微细看，甚至以为有点像 handler 模块，当你们看到这段代码之后，一定疑惑为何会跟 handler 模块如出一辙。

由于 upstream 模块使用的就是 handler 模块的接入方式。同时，upstream 模块的指令系统的设计也是遵循 handler 模块的基本规则：配置该模块才会执行该模块。

因此你们以为眼熟是好事，说明你们对 Handler 的写法已经很熟悉了。

Upstream 模块

那么，upstream 模块的特别之处究竟在哪里呢？答案是就在模块处理函数的实现中。upstream 模块的处理函数进行的操做都包含一个固定的流程。在 memcached 的例子中，能够观察 ngx_http_memcached_handler 的代码，能够发现，这个固定的操做流程是：

任何 upstream 模块，简单如 memcached，复杂如 proxy、fastcgi 都是如此。不一样的 upstream 模块在这 6 步中的最大差异会出如今第二、三、四、5 上。其中第二、4 两步很容易理解，不一样的模块设置的标志和使用的回调函数确定不一样。第 5 步也不难理解，只有第3步是最为晦涩的，不一样的模块在取得后端服务器列表时，策略的差别很是大，有如 memcached 这样简单明了的，也有如 proxy 那样逻辑复杂的。这个问题先记下来，等把memcached剖析清楚了，再单独讨论。

第 6 步是一个常态。将 count 加 1，而后返回 NGX_DONE。Nginx 遇到这种状况，虽然会认为当前请求的处理已经结束，可是不会释放请求使用的内存资源，也不会关闭与客户端的链接。之因此须要这样，是由于 Nginx 创建了 upstream 请求和客户端请求之间一对一的关系，在后续使用 ngx_event_pipe 将 upstream 响应发送回客户端时，还要使用到这些保存着客户端信息的数据结构。这部分会在后面的原理篇作具体介绍，这里再也不展开。

将 upstream 请求和客户端请求进行一对一绑定，这个设计有优点也有缺陷。优点就是简化模块开发，能够将精力集中在模块逻辑上，而缺陷一样明显，一对一的设计不少时候都不能知足复杂逻辑的须要。对于这一点，将会在后面的原理篇来阐述。

回调函数

前面剖析了 memcached 模块的骨架，如今开始逐个解决每一个回调函数。

若是在已读入缓冲的数据中没有发现 LF('\n')字符，函数返回 NGX_AGAIN，表示头部未彻底读入，须要继续读取数据。Nginx 在收到新的数据之后会再次调用该函数。

Nginx 处理后端服务器的响应头时只会使用一块缓存，全部数据都在这块缓存中，因此解析头部信息时不须要考虑头部信息跨越多块缓存的状况。而若是头部过大，不能保存在这块缓存中，Nginx 会返回错误信息给客户端，并记录 error log，提示缓存不够大。

process_header 的重要职责是将后端服务器返回的状态翻译成返回给客户端的状态。例如，在 ngx_http_memcached_process_header 中，有这样几段代码：

u->state 用于计算 upstream 相关的变量。好比 u->state->status 将被用于计算变量“upstream_status”的值。u->headers_in 将被做为返回给客户端的响应返回状态码。而第一行则是设置返回给客户端的响应的长度。

在这个函数中不能忘记的一件事情是处理完头部信息之后须要将读指针 pos 后移，不然这段数据也将被复制到返回给客户端的响应的正文中，进而致使正文内容不正确。

process_header 函数完成响应头的正确处理，应该返回 NGX_OK。若是返回 NGX_AGAIN，表示未读取完整数据，须要从后端服务器继续读取数据。返回 NGX_DECLINED 无心义，其余任何返回值都被认为是出错状态，Nginx 将结束 upstream 请求并返回错误信息。

本节回顾

这一节介绍了 upstream 模块的基本组成。upstream 模块是从 handler 模块发展而来，指令系统和模块生效方式与 handler 模块无异。不一样之处在于，upstream 模块在 handler 函数中设置众多回调函数。实际工做都是由这些回调函数完成的。每一个回调函数都是在 upstream 的某个固定阶段执行，各司其职，大部分回调函数通常不会真正用到。upstream 最重要的回调函数是 create_request、process_header 和 input_filter，他们共同实现了与后端服务器的协议的解析部分。

filter module	description
ngx_http_not_modified_filter_module	默认打开，若是请求的 if-modified-since 等于回复的 last-modified 间值，说明回复没有变化，清空全部回复的内容，返回 304。
ngx_http_range_body_filter_module	默认打开，只是响应体过滤函数，支持 range 功能，若是请求包含range请求，那就只发送range请求的一段内容。
ngx_http_copy_filter_module	始终打开，只是响应体过滤函数，主要工做是把文件中内容读到内存中，以便进行处理。
ngx_http_headers_filter_module	始终打开，能够设置 expire 和 Cache-control 头，能够添加任意名称的头
ngx_http_userid_filter_module	默认关闭，能够添加统计用的识别用户的 cookie。
ngx_http_charset_filter_module	默认关闭，能够添加 charset，也能够将内容从一种字符集转换到另一种字符集，不支持多字节字符集。
ngx_http_ssi_filter_module	默认关闭，过滤 SSI 请求，能够发起子请求，去获取include进来的文件
ngx_http_postpone_filter_module	始终打开，用来将子请求和主请求的输出链合并
ngx_http_gzip_filter_module	默认关闭，支持流式的压缩内容
ngx_http_range_header_filter_module	默认打开，只是响应头过滤函数，用来解析range头，并产生range响应的头。
ngx_http_chunked_filter_module	默认打开，对于 HTTP/1.1 和缺乏 content-length 的回复自动打开。
ngx_http_header_filter_module	始终打开，用来将全部 header 组成一个完整的 HTTP 头。
ngx_http_write_filter_module	始终打开，将输出链拷贝到 r->out中，而后输出内容。

功能	函数名
chain 分配	ngx_alloc_chain_link
chain 释放	ngx_free_chain
buf 分配	ngx_chain_get_free_buf
buf 释放	ngx_chain_update_chains

SN	描述
create_request	生成发送到后端服务器的请求缓冲（缓冲链），在初始化 upstream 时使用。
reinit_request	在某台后端服务器出错的状况，Nginx会尝试另外一台后端服务器。Nginx 选定新的服务器之后，会先调用此函数，以从新初始化 upstream 模块的工做状态，而后再次进行 upstream 链接。
process_header	处理后端服务器返回的信息头部。所谓头部是与 upstreamserver 通讯的协议规定的，好比 HTTP 协议的 header 部分，或者 memcached 协议的响应状态部分。
abort_request	在客户端放弃请求时被调用。不须要在函数中实现关闭后端服务器链接的功能，系统会自动完成关闭链接的步骤，因此通常此函数不会进行任何具体工做。
finalize_request	正常完成与后端服务器的请求后调用该函数，与 abort_request 相同，通常也不会进行任何具体工做。
input_filter	处理后端服务器返回的响应正文。Nginx 默认的 input_filter 会将收到的内容封装成为缓冲区链 ngx_chain。该链由 upstream 的 out_bufs 指针域定位，因此开发人员能够在模块之外经过该指针获得后端服务器返回的正文数据。memcached 模块实现了本身的 input_filter，在后面会具体分析这个模块。
input_filter_init	初始化 input filter 的上下文。Nginx 默认的 input_filter_init 直接返回。

十九.负载均衡模块

负载均衡模块用于从upstream指令定义的后端主机列表中选取一台主机。Nginx 先使用负载均衡模块找到一台主机，再使用 upstream 模块实现与这台主机的交互。为了方便介绍负载均衡模块，作到言之有物，如下选取 Nginx 内置的 ip hash 模块做为实际例子进行分析。

配置

要了解负载均衡模块的开发方法，首先须要了解负载均衡模块的使用方法。由于负载均衡模块与以前书中提到的模块差异比较大，因此咱们从配置入手比较容易理解。

在配置文件中，咱们若是须要使用 ip hash 的负载均衡算法。咱们须要写一个相似下面的配置：

upstream test {
            ip_hash;

            server 192.168.0.1;
            server 192.168.0.2;
        }

从配置咱们能够看出负载均衡模块的使用场景：

核心指令ip_hash只能在 upstream {}中使用。这条指令用于通知 Nginx 使用 ip hash 负载均衡算法。若是没加这条指令，Nginx 会使用默认的 round robin 负载均衡模块。请各位读者对比 handler 模块的配置，是否是有共同点？
upstream {}中的指令可能出如今server指令前，可能出如今server指令后，也可能出如今两条server指令之间。各位读者可能会有疑问，有什么差异么？那么请各位读者尝试下面这个配置：

upstream test {
            server 192.168.0.1 weight=5;
            ip_hash;
            server 192.168.0.2 weight=7;
        }

神奇的事情出现了：

nginx: [emerg] invalid parameter "weight=7" in nginx.conf:103
        configuration file nginx.conf test failed

可见 ip_hash 指令的确能影响到配置的解析。

指令

配置决定指令系统，如今就来看 ip_hash 的指令定义：

static ngx_command_t  ngx_http_upstream_ip_hash_commands[] = {

        { ngx_string("ip_hash"),
          NGX_HTTP_UPS_CONF|NGX_CONF_NOARGS,
          ngx_http_upstream_ip_hash,
          0,
          0,
          NULL },

        ngx_null_command
    };

没有特别的东西，除了指令属性是 NGX_HTTP_UPS_CONF。这个属性表示该指令的适用范围是 upstream{}。

钩子

以从前面的章节获得的经验，你们应该知道这里就是模块的切入点了。负载均衡模块的钩子代码都是有规律的，这里经过 ip_hash 模块来分析这个规律。

static char *
    ngx_http_upstream_ip_hash(ngx_conf_t *cf, ngx_command_t *cmd, void *conf)
    {
        ngx_http_upstream_srv_conf_t  *uscf;

        uscf = ngx_http_conf_get_module_srv_conf(cf, ngx_http_upstream_module);

        uscf->peer.init_upstream = ngx_http_upstream_init_ip_hash;

        uscf->flags = NGX_HTTP_UPSTREAM_CREATE
                    |NGX_HTTP_UPSTREAM_MAX_FAILS
                    |NGX_HTTP_UPSTREAM_FAIL_TIMEOUT
                    |NGX_HTTP_UPSTREAM_DOWN;

        return NGX_CONF_OK;
    }

这段代码中有两点值得咱们注意。一个是 uscf->flags 的设置，另外一个是设置 init_upstream 回调。

设置 uscf->flags

NGX_HTTP_UPSTREAM_CREATE：建立标志，若是含有建立标志的话，Nginx 会检查重复建立，以及必要参数是否填写；
NGX_HTTP_UPSTREAM_MAX_FAILS：能够在 server 中使用 max_fails 属性；
NGX_HTTP_UPSTREAM_FAIL_TIMEOUT：能够在 server 中使用 fail_timeout 属性；
NGX_HTTP_UPSTREAM_DOWN：能够在 server 中使用 down 属性；
NGX_HTTP_UPSTREAM_WEIGHT：能够在 server 中使用 weight 属性；
NGX_HTTP_UPSTREAM_BACKUP：能够在 server 中使用 backup 属性。

聪明的读者若是联想到刚刚遇到的那个神奇的配置错误，能够得出一个结论：在负载均衡模块的指令处理函数中能够设置并修改 upstream{} 中server指令支持的属性。这是一个很重要的性质，由于不一样的负载均衡模块对各类属性的支持状况都是不同的，那么就须要在解析配置文件的时候检测出是否使用了不支持的负载均衡属性并给出错误提示，这对于提高系统维护性是颇有意义的。可是，这种机制也存在缺陷，正如前面的例子所示，没有机制可以追加检查在更新支持属性以前已经配置了不支持属性的server指令。

设置 init_upstream 回调

Nginx 初始化 upstream 时，会在 ngx_http_upstream_init_main_conf 函数中调用设置的回调函数初始化负载均衡模块。这里不太好理解的是 uscf 的具体位置。经过下面的示意图，说明 upstream 负载均衡模块的配置的内存布局。

从图上能够看出，MAIN_CONF 中 ngx_upstream_module 模块的配置项中有一个指针数组 upstreams，数组中的每一个元素对应就是配置文件中每个 upstream{}的信息。更具体的将会在后面的原理篇讨论。

初始化配置

init_upstream 回调函数执行时须要初始化负载均衡模块的配置，还要设置一个新钩子，这个钩子函数会在 Nginx 处理每一个请求时做为初始化函数调用，关于这个新钩子函数的功能，后面会有详细的描述。这里，咱们先分析 IP hash 模块初始化配置的代码：

ngx_http_upstream_init_round_robin(cf, us);
    us->peer.init = ngx_http_upstream_init_ip_hash_peer;

这段代码很是简单：IP hash 模块首先调用另外一个负载均衡模块 Round Robin 的初始化函数，而后再设置本身的处理请求阶段初始化钩子。实际上几个负载均衡模块能够组成一条链表，每次都是从链首的模块开始进行处理。若是模块决定不处理，能够将处理权交给链表中的下一个模块。这里，IP hash 模块指定 Round Robin 模块做为本身的后继负载均衡模块，因此在本身的初始化配置函数中也对 Round Robin 模块进行初始化。

初始化请求

Nginx 收到一个请求之后，若是发现须要访问 upstream，就会执行对应的 peer.init 函数。这是在初始化配置时设置的回调函数。这个函数最重要的做用是构造一张表，当前请求能够使用的 upstream 服务器被依次添加到这张表中。之因此须要这张表，最重要的缘由是若是 upstream 服务器出现异常，不能提供服务时，能够从这张表中取得其余服务器进行重试操做。此外，这张表也能够用于负载均衡的计算。之因此构造这张表的行为放在这里而不是在前面初始化配置的阶段，是由于upstream须要为每个请求提供独立隔离的环境。

为了讨论 peer.init 的核心，咱们仍是看 IP hash 模块的实现：

r->upstream->peer.data = &iphp->rrp;

    ngx_http_upstream_init_round_robin_peer(r, us);

    r->upstream->peer.get = ngx_http_upstream_get_ip_hash_peer;

第一行是设置数据指针，这个指针就是指向前面提到的那张表；

第二行是调用 Round Robin 模块的回调函数对该模块进行请求初始化。面前已经提到，一个负载均衡模块能够调用其余负载均衡模块以提供功能的补充。

第三行是设置一个新的回调函数get。该函数负责从表中取出某个服务器。除了 get 回调函数，还有另外一个r->upstream->peer.free的回调函数。该函数在 upstream 请求完成后调用，负责作一些善后工做。好比咱们须要维护一个 upstream 服务器访问计数器，那么能够在 get 函数中对其加 1，在 free 中对其减 1。若是是 SSL 的话，Nginx 还提供两个回调函数 peer.set_session 和 peer.save_session。通常来讲，有两个切入点实现负载均衡算法，其一是在这里，其二是在 get 回调函数中。

peer.get 和 peer.free 回调函数

这两个函数是负载均衡模块最底层的函数，负责实际获取一个链接和回收一个链接的预备操做。之因此说是预备操做，是由于在这两个函数中，并不实际进行创建链接或者释放链接的动做，而只是执行获取链接的地址或维护链接状态的操做。须要理解的清楚一点，在 peer.get 函数中获取链接的地址信息，并不表明这时链接必定没有被创建，相反的，经过 get 函数的返回值，Nginx 能够了解是否存在可用链接，链接是否已经创建。这些返回值总结以下：

返回值	说明	Nginx 后续动做
NGX_DONE	获得了链接地址信息，而且链接已经创建。	直接使用链接，发送数据。
NGX_OK	获得了链接地址信息，但链接并未创建。	创建链接，如链接不能当即创建，设置事件，
		暂停执行本请求，执行别的请求。
NGX_BUSY	全部链接均不可用。	返回502错误至客户端。

各位读者看到上面这张表，可能会有几个问题浮现出来：

Q: 何时链接是已经创建的？

A: 使用后端 keepalive 链接的时候，链接在使用完之后并不关闭，而是存放在一个队列中，新的请求只须要从队列中取出链接，这些链接都是已经准备好的。

Q: 什么叫全部链接均不可用？

A: 初始化请求的过程当中，创建了一张表，get 函数负责每次从这张表中不重复的取出一个链接，当没法从表中取得一个新的链接时，即全部链接均不可用。

Q: 对于一个请求，peer.get 函数可能被调用屡次么？

A: 正式如此。当某次 peer.get 函数获得的链接地址链接不上，或者请求对应的服务器获得异常响应，Nginx 会执行 ngx_http_upstream_next，而后可能再次调用 peer.get 函数尝试别的链接。upstream 总体流程以下：

本节回顾

这一节介绍了负载均衡模块的基本组成。负载均衡模块的配置区集中在 upstream{}块中。负载均衡模块的回调函数体系是以 init_upstream 为起点，经历 init_peer，最终到达 peer.get 和 peer.free。其中 init_peer 负责创建每一个请求使用的 server 列表，peer.get 负责从 server 列表中选择某个 server（通常是不重复选择），而 peer.free 负责 server 释放前的资源释放工做。最后，这一节经过一张图将 upstream 模块和负载均衡模块在请求处理过程当中的相互关系展示出来。

Nginx 入门指南

二.Nginx 特色

3.初探 Nginx 架构

四.Nginx 基础概念

connection

request

keepalive

pipe

lingering_close

五.基本数据结构

ngx_str_t

ngx_pool_t

ngx_array_t

ngx_hash_t

ngx_hash_wildcard_t

ngx_hash_combined_t

ngx_hash_keys_arrays_t

ngx_chain_t

ngx_buf_t

ngx_list_t

ngx_queue_t

六.Nginx 的配置系统

指令概述

指令参数

指令上下文

七.Nginx 的模块化体系结构

模块概述

模块的分类

八.Nginx 的请求处理

请求的处理流程

九.handler 模块简介

十.模块的基本结构

模块配置结构

模块配置指令

模块上下文结构

模块的定义

十一.handler 模块的基本结构

十二.handler 模块的挂载

按处理阶段挂载

按需挂载

十三.handler 的编写步骤

十四.示例: hello handler 模块

十五.handler 模块的编译和使用

config 文件的编写

编译

使用

十六.更多 handler 模块示例分析

http access module

http static module

http log module

十七.过滤模块简介

执行时间和内容

执行顺序

模块编译

十八.过滤模块的分析

相关结构体

响应头过滤函数

响应体过滤函数

主要功能介绍

发出子请求

一些优化措施

过滤内容的缓存

十八.upstream 模块简介

upstream 模块接口

memcached 模块分析

Handler 模块？

Upstream 模块

回调函数

本节回顾

十九.负载均衡模块

配置

指令

钩子

设置 uscf->flags

设置 init_upstream 回调

初始化配置

初始化请求

peer.get 和 peer.free 回调函数

本节回顾

二十.core 模块