优化linux的内核来提升nginx并发

时间 2019-11-07

标签优化 linux 内核提升 nginx 并发栏目 Linux 繁體版

原文原文链接

本文主要讲解linux内核参数详细注解以及深刻优化linux

目录：nginx

1.linux内核参数详解web

2.生产环境下内核参数优化配置详解与参考算法

一：linux内核参数详解apache

如下表格中红色字体为经常使用优化参数缓存

下列文件所在目录：/proc/sys/net/ipv4/bash

名称服务器	默认值cookie	建议值网络	描述
net.ipv4.tcp_syn_retries	5	1	对于一个新建链接，内核要发送多少个 SYN 链接请求才决定放弃。不该该大于255，默认值是5，对应于180秒左右时间。。(对于大负载而物理通讯良好的网络而言,这个值偏高,可修改成2.这个值仅仅是针对对外的链接,对进来的链接,是由tcp_retries1决定的)
net.ipv4.tcp_synack_retries	5	1	对于远端的链接请求SYN，内核会发送SYN ＋ ACK数据报，以确认收到上一个 SYN链接请求包。这是所谓的三次握手( threeway handshake)机制的第二个步骤。这里决定内核在放弃链接以前所送出的 SYN+ACK 数目。不该该大于255，默认值是5，对应于180秒左右时间。
net.ipv4.tcp_keepalive_time	7200	600	TCP发送keepalive探测消息的间隔时间（秒），用于确认TCP链接是否有效。防止两边创建链接但不发送数据的***。
net.ipv4.tcp_keepalive_probes	9	3	TCP发送keepalive探测消息的间隔时间（秒），用于确认TCP链接是否有效。
net.ipv4.tcp_keepalive_intvl	75	15	探测消息未得到响应时，重发该消息的间隔时间（秒）。默认值为75秒。 (对于普通应用来讲,这个值有一些偏大,能够根据须要改小.特别是web类服务器须要改小该值,15是个比较合适的值)
net.ipv4.tcp_retries1	3	3	放弃回应一个TCP链接请求前﹐须要进行多少次重试。RFC 规定最低的数值是3
net.ipv4.tcp_retries2	15	5	在丢弃激活(已创建通信情况)的TCP链接以前﹐须要进行多少次重试。默认值为15，根据RTO的值来决定，至关于13-30分钟(RFC1122规定，必须大于100秒).(这个值根据目前的网络设置,能够适当地改小,个人网络内修改成了5)
net.ipv4.tcp_orphan_retries	7	3	在近端丢弃TCP链接以前﹐要进行多少次重试。默认值是7个﹐至关于 50秒 - 16分钟﹐视RTO 而定。若是您的系统是负载很大的web服务器﹐那么也许须要下降该值﹐这类 sockets 可能会耗费大量的资源。另外参的考tcp_max_orphans。(事实上作NAT的时候,下降该值也是好处显著的,我本人的网络环境中下降该值为3)
net.ipv4.tcp_fin_timeout	60	2	对于本端断开的socket链接，TCP保持在FIN-WAIT-2状态的时间。对方可能会断开链接或一直不结束链接或不可预料的进程死亡。默认值为 60 秒。
net.ipv4.tcp_max_tw_buckets	180000	36000	系统在同时所处理的最大 timewait sockets 数目。若是超过此数的话﹐time-wait socket 会被当即砍除而且显示警告信息。之因此要设定这个限制﹐纯粹为了抵御那些简单的 DoS ***﹐不过﹐若是网络条件须要比默认值更多﹐则能够提升它(或许还要增长内存)。(事实上作NAT的时候最好能够适当地增长该值)
net.ipv4.tcp_tw_recycle	0	1	打开快速 TIME-WAIT sockets 回收。除非获得技术专家的建议或要求﹐请不要随意修改这个值。(作NAT的时候，建议打开它)
net.ipv4.tcp_tw_reuse	0	1	表示是否容许从新应用处于TIME-WAIT状态的socket用于新的TCP链接(这个对快速重启动某些服务,而启动后提示端口已经被使用的情形很是有帮助)
net.ipv4.tcp_max_orphans	8192	32768	系统所能处理不属于任何进程的TCP sockets最大数量。假如超过这个数量﹐那么不属于任何进程的链接会被当即reset，并同时显示警告信息。之因此要设定这个限制﹐纯粹为了抵御那些简单的 DoS ***﹐千万不要依赖这个或是人为的下降这个限制。若是内存大更应该增长这个值。(这个值Redhat AS版本中设置为32768,可是不少防火墙修改的时候,建议该值修改成2000)
net.ipv4.tcp_abort_on_overflow	0	0	当守护进程太忙而不能接受新的链接，就象对方发送reset消息，默认值是false。这意味着当溢出的缘由是由于一个偶然的猝发，那么链接将恢复状态。只有在你确信守护进程真的不能完成链接请求时才打开该选项，该选项会影响客户的使用。(对待已经满载的sendmail,apache这类服务的时候,这个能够很快让客户端终止链接,能够给予服务程序处理已有链接的缓冲机会,因此不少防火墙上推荐打开它)
net.ipv4.tcp_syncookies	0	1	只有在内核编译时选择了CONFIG_SYNCOOKIES时才会发生做用。当出现syn等候队列出现溢出时象对方发送syncookies。目的是为了防止syn flood***。
net.ipv4.tcp_stdurg	0	0	使用 TCP urg pointer 字段中的主机请求解释功能。大部份的主机都使用老旧的 BSD解释，所以若是您在 Linux 打开它﹐或会致使不能和它们正确沟通。
net.ipv4.tcp_max_syn_backlog	1024	16384	对于那些依然还未得到客户端确认的链接请求﹐须要保存在队列中最大数目。对于超过 128Mb 内存的系统﹐默认值是 1024 ﹐低于 128Mb 的则为 128。若是服务器常常出现过载﹐能够尝试增长这个数字。警告﹗假如您将此值设为大于 1024﹐最好修改include/net/tcp.h里面的TCP_SYNQ_HSIZE﹐以保持TCP_SYNQ_HSIZE16(SYN Flood利用TCP协议散布握手的缺陷，伪造虚假源IP地址发送大量TCP-SYN半打开链接到目标系统，最终致使目标系统Socket队列资源耗尽而没法接受新的链接。为了应付这种，现代Unix系统中广泛采用多链接队列处理的方式来缓冲(而不是解决)这种，是用一个基本队列处理正常的彻底链接应用(Connect()和Accept() )，是用另外一个队列单独存放半打开链接。这种双队列处理方式和其余一些系统内核措施(例如Syn-Cookies/Caches)联合应用时，可以比较有效的缓解小规模的SYN Flood*(事实证实)
net.ipv4.tcp_window_scaling	1	1	该文件表示设置tcp/ip会话的滑动窗口大小是否可变。参数值为布尔值，为1时表示可变，为0时表示不可变。tcp/ip一般使用的窗口最大可达到 65535 字节，对于高速网络，该值可能过小，这时候若是启用了该功能，可使tcp/ip滑动窗口大小增大数个数量级，从而提升数据传输的能力(RFC 1323)。（对普通地百M网络而言，关闭会下降开销，因此若是不是高速网络，能够考虑设置为0）
net.ipv4.tcp_timestamps	1	1	Timestamps 用在其它一些东西中﹐能够防范那些伪造的 sequence 号码。一条1G的宽带线路或许会重遇到带 out-of-line数值的旧sequence 号码(假如它是因为上次产生的)。Timestamp 会让它知道这是个 '旧封包'。(该文件表示是否启用以一种比超时重发更精确的方法（RFC 1323）来启用对 RTT 的计算；为了实现更好的性能应该启用这个选项。)
net.ipv4.tcp_sack	1	1	使用 Selective ACK﹐它能够用来查找特定的遗失的数据报--- 所以有助于快速恢复状态。该文件表示是否启用有选择的应答（Selective Acknowledgment），这能够经过有选择地应答乱序接收到的报文来提升性能（这样可让发送者只发送丢失的报文段）。(对于广域网通讯来讲这个选项应该启用，可是这会增长对 CPU 的占用。)
net.ipv4.tcp_fack	1	1	打开FACK拥塞避免和快速重传功能。(注意，当tcp_sack设置为0的时候，这个值即便设置为1也无效)[这个是TCP链接靠谱的核心功能]
net.ipv4.tcp_dsack	1	1	容许TCP发送"两个彻底相同"的SACK。
net.ipv4.tcp_ecn	0	0	TCP的直接拥塞通告功能。
net.ipv4.tcp_reordering	3	6	TCP流中重排序的数据报最大数量。 (通常有看到推荐把这个数值略微调整大一些,好比5)
net.ipv4.tcp_retrans_collapse	1	0	对于某些有bug的打印机提供针对其bug的兼容性。(通常不须要这个支持,能够关闭它)
net.ipv4.tcp_wmem：min default max	4096 16384 131072	8192 131072 16777216	发送缓存设置 min：为TCP socket预留用于发送缓冲的内存最小值。每一个tcp socket均可以在建议之后均可以使用它。默认值为4096(4K)。 default：为TCP socket预留用于发送缓冲的内存数量，默认状况下该值会影响其它协议使用的net.core.wmem_default 值，通常要低于net.core.wmem_default的值。默认值为16384(16K)。 max: 用于TCP socket发送缓冲的内存最大值。该值不会影响net.core.wmem_max，"静态"选择参数SO_SNDBUF则不受该值影响。默认值为131072(128K)。（对于服务器而言，增长这个参数的值对于发送数据颇有帮助,在个人网络环境中,修改成了51200 131072 204800）
net.ipv4.tcp_rmem：min default max	4096 87380 174760	32768 131072 16777216	接收缓存设置同tcp_wmem
net.ipv4.tcp_mem：min default max	根据内存计算	786432 1048576 1572864	low：当TCP使用了低于该值的内存页面数时，TCP不会考虑释放内存。即低于此值没有内存压力。(理想状况下，这个值应与指定给 tcp_wmem 的第 2 个值相匹配 - 这第 2 个值代表，最大页面大小乘以最大并发请求数除以页大小 (131072 * 300 / 4096)。 ) pressure：当TCP使用了超过该值的内存页面数量时，TCP试图稳定其内存使用，进入pressure模式，当内存消耗低于low值时则退出pressure状态。(理想状况下这个值应该是 TCP 可使用的总缓冲区大小的最大值 (204800 * 300 / 4096)。 ) high：容许全部tcp sockets用于排队缓冲数据报的页面量。(若是超过这个值，TCP 链接将被拒绝，这就是为何不要令其过于保守 (512000 * 300 / 4096) 的缘由了。在这种状况下，提供的价值很大，它能处理不少链接，是所预期的 2.5 倍；或者使现有链接可以传输 2.5 倍的数据。个人网络里为192000 300000 732000) 通常状况下这些值是在系统启动时根据系统内存数量计算获得的。
net.ipv4.tcp_app_win	31	31	保留max(window/2^tcp_app_win, mss)数量的窗口因为应用缓冲。当为0时表示不须要缓冲。
net.ipv4.tcp_adv_win_scale	2	2	计算缓冲开销bytes/2^tcp_adv_win_scale(若是tcp_adv_win_scale > 0)或者bytes-bytes/2^(-tcp_adv_win_scale)(若是tcp_adv_win_scale BOOLEAN>0)
net.ipv4.tcp_low_latency	0	0	容许 TCP/IP 栈适应在高吞吐量状况下低延时的状况；这个选项通常情形是的禁用。(但在构建Beowulf 集群的时候,打开它颇有帮助)
net.ipv4.tcp_westwood	0	0	启用发送者端的拥塞控制算法，它能够维护对吞吐量的评估，并试图对带宽的总体利用状况进行优化；对于 WAN 通讯来讲应该启用这个选项。
net.ipv4.tcp_bic	0	0	为快速长距离网络启用 Binary Increase Congestion；这样能够更好地利用以 GB 速度进行操做的连接；对于 WAN 通讯应该启用这个选项。
net.ipv4.ip_forward	0	－	NAT必须开启IP转发支持，把该值写1
net.ipv4.ip_local_port_range:min max	32768 61000	1024 65000	表示用于向外链接的端口范围，默认比较小，这个范围一样会间接用于NAT表规模。
net.ipv4.ip_conntrack_max	65535	65535	系统支持的最大ipv4链接数，默认65536（事实上这也是理论最大值），同时这个值和你的内存大小有关，若是内存128M，这个值最大8192，1G以上内存这个值都是默认65536

下列文件所处目录：/proc/sys/net/ipv4/netfilter/

文件须要打开防火墙才会存在

名称	默认值	建议值	描述
ip_conntrack_max	65536	65536	系统支持的最大ipv4链接数，默认65536（事实上这也是理论最大值），同时这个值和你的内存大小有关，若是内存128M，这个值最大8192，1G以上内存这个值都是默认65536,这个值受/proc/sys/net/ipv4/ip_conntrack_max限制
ip_conntrack_tcp_timeout_established	432000	180	已创建的tcp链接的超时时间，默认432000，也就是5天。影响：这个值过大将致使一些可能已经不用的链接常驻于内存中，占用大量连接资源，从而可能致使NAT ip_conntrack: table full的问题。建议：对于NAT负载相对本机的 NAT表大小很紧张的时候，可能须要考虑缩小这个值，以尽早清除链接，保证有可用的链接资源；若是不紧张，没必要修改
ip_conntrack_tcp_timeout_time_wait	120	120	time_wait状态超时时间，超过该时间就清除该链接
ip_conntrack_tcp_timeout_close_wait	60	60	close_wait状态超时时间，超过该时间就清除该链接
ip_conntrack_tcp_timeout_fin_wait	120	120	fin_wait状态超时时间，超过该时间就清除该链接

下列文件所处目录：/proc/sys/net/core/

名称	默认值	建议值	描述
netdev_max_backlog	1024	16384	每一个网络接口接收数据包的速率比内核处理这些包的速率快时，容许送到队列的数据包的最大数目，对重负载服务器而言，该值须要调高一点。
somaxconn	128	16384	用来限制监听(LISTEN)队列最大数据包的数量，超过这个数量就会致使连接超时或者触发重传机制。 web应用中listen函数的backlog默认会给咱们内核参数的net.core.somaxconn限制到128，而nginx定义的NGX_LISTEN_BACKLOG默认为511，因此有必要调整这个值。对繁忙的服务器,增长该值有助于网络性能
wmem_default	129024	129024	默认的发送窗口大小（以字节为单位）
rmem_default	129024	129024	默认的接收窗口大小（以字节为单位）
rmem_max	129024	873200	最大的TCP数据接收缓冲
wmem_max	129024	873200	最大的TCP数据发送缓冲

二：生产环境下内核参数优化配置详解与参考

在服务器硬件资源额定有限的状况下，最大的压榨服务器的性能，提升服务器的并发处理能力，是不少运维技术人员思考的问题。要提升Linux系统下的负载能力，可使用nginx等原生并发处理能力就很强的web服务器，若是使用Apache的能够启用其Worker模式，来提升其并发处理能力。除此以外，在考虑节省成本的状况下，能够修改Linux的内核相关TCP参数，来最大的提升服务器性能。固然，最基础的提升负载问题，仍是升级服务器硬件了，这是最根本的。

Linux系统下，TCP链接断开后，会以TIME_WAIT状态保留必定的时间，而后才会释放端口。当并发请求过多的时候，就会产生大量的TIME_WAIT状态的链接，没法及时断开的话，会占用大量的端口资源和服务器资源。这个时候咱们能够优化TCP的内核参数，来及时将TIME_WAIT状态的端口清理掉。

下面介绍的方法只对拥有大量TIME_WAIT状态的链接致使系统资源消耗有效，若是不是这种状况下，效果可能不明显。可使用netstat命令去查TIME_WAIT状态的链接状态，输入下面的组合命令，查看当前TCP链接的状态和对应的链接数量：

netstat -n|awk '/^tcp/{++S[$NF]} END {for(a in S)print a,S[a]}'
这个命令会输出相似下面的结果：
LAST_ACK 16
SYN_RECV 348
ESTABLISHED 70
FIN_WAIT1 229
FIN_WAIT2 30
CLOSING 33
TIME_WAIT 18098

咱们这里只关心TIME_WAIT的个数，在这里能够看到，有18000多个TIME_WAIT，这样就占用了18000多个端口。要知道端口的数量只有65535个，占用一个少一个，会严重的影响到后继的新链接。这种状况下，咱们就有必要调整下Linux的TCP内核参数，让系统更快的释放TIME_WAIT链接。

下面是参数优化文件的配置以及详解：

[root@aliyun core]# cat /etc/sysctl.conf

net.ipv4.tcp_syncookies = 1

#表示开启SYN Cookies。当出现SYN等待队列溢出时，启用cookies来处理，可防范少许SYN×××，默认为0，表示关闭；

net.ipv4.tcp_tw_reuse = 1

#表示开启重用。容许将TIME-WAIT sockets从新用于新的TCP链接，默认为0，表示关闭；

net.ipv4.tcp_tw_recycle = 1

#表示开启TCP链接中TIME-WAIT sockets的快速回收，默认为0，表示关闭；

net.ipv4.tcp_fin_timeout = 2

#修改系統默认的 TIMEOUT 时间。

#在通过这样的调整以后，除了会进一步提高服务器的负载能力以外，还可以防护小流量程度的DoS、CC和SYN×××。

#此外，若是你的链接数自己就不少，咱们能够再优化一下TCP的可以使用端口范围，进一步提高服务器的并发能力。依然是往上面的参数文件中，加入下面这些配置：

net.ipv4.tcp_keepalive_time = 1200

net.ipv4.ip_local_port_range = 10000 65000

net.ipv4.tcp_max_syn_backlog = 8192

net.ipv4.tcp_max_tw_buckets = 5000

#这几个参数，建议只在流量很是大的服务器上开启，会有显著的效果。通常的流量小的服务器上，没有必要去设置这几个参数。

net.ipv4.tcp_keepalive_time = 1200

#表示当keepalive起用的时候，TCP发送keepalive消息的频度。缺省是2小时，改成20分钟。

net.ipv4.ip_local_port_range = 10000 65000

#表示用于向外链接的端口范围。缺省状况下很小：32768到61000，改成10000到65000。（注意：这里不要将最低值设的过低，不然可能会占用掉正常的端口！）

net.ipv4.tcp_max_syn_backlog = 8192

#表示SYN队列的长度，默认为1024，加大队列长度为8192，能够容纳更多等待链接的网络链接数。

net.ipv4.tcp_max_tw_buckets = 6000

#表示系统同时保持TIME_WAIT的最大数量，若是超过这个数字，TIME_WAIT将马上被清除并打印警告信息。默认为180000，改成6000。对于Apache、Nginx等服务器，上几行的参数能够很好地减小TIME_WAIT套接字数量，可是对于 Squid，效果却不大。此项参数能够控制TIME_WAIT的最大数量，避免Squid服务器被大量的TIME_WAIT拖死。

#内核其它TCP参数说明：

net.ipv4.tcp_max_syn_backlog = 65536

#记录的那些还没有收到客户端确认信息的链接请求的最大值。对于有128M内存的系统而言，缺省值是1024，小内存的系统则是128。

net.core.netdev_max_backlog = 32768

#每一个网络接口接收数据包的速率比内核处理这些包的速率快时，容许送到队列的数据包的最大数目。

net.core.somaxconn = 32768

#web应用中listen函数的backlog默认会给咱们内核参数的net.core.somaxconn限制到128，而nginx定义的NGX_LISTEN_BACKLOG默认为511，因此有必要调整这个值。

net.core.wmem_default = 8388608

net.core.rmem_default = 8388608

net.core.rmem_max = 16777216 #最大socket读buffer,可参考的优化值:873200

net.core.wmem_max = 16777216 #最大socket写buffer,可参考的优化值:873200

net.ipv4.tcp_timestsmps = 0

#时间戳能够避免序列号的卷绕。一个1Gbps的链路确定会遇到之前用过的序列号。时间戳可以让内核接受这种“异常”的数据包。这里须要将其关掉。

net.ipv4.tcp_synack_retries = 2

#为了打开对端的链接，内核须要发送一个SYN并附带一个回应前面一个SYN的ACK。也就是所谓三次握手中的第二次握手。这个设置决定了内核放弃链接以前发送SYN+ACK包的数量。

net.ipv4.tcp_syn_retries = 2

#在内核放弃创建链接以前发送SYN包的数量。

net.ipv4.tcp_tw_reuse = 1

# 开启重用。容许将TIME-WAIT sockets从新用于新的TCP链接。

net.ipv4.tcp_wmem = 8192 436600 873200

# TCP写buffer,可参考的优化值: 8192 436600 873200

net.ipv4.tcp_rmem = 32768 436600 873200

# TCP读buffer,可参考的优化值: 32768 436600 873200

net.ipv4.tcp_mem = 94500000 91500000 92700000

# 一样有3个值,意思是:

#net.ipv4.tcp_mem[0]:低于此值，TCP没有内存压力。

#net.ipv4.tcp_mem[1]:在此值下，进入内存压力阶段。

#net.ipv4.tcp_mem[2]:高于此值，TCP拒绝分配socket。

#上述内存单位是页，而不是字节。可参考的优化值是:786432 1048576 1572864

net.ipv4.tcp_max_orphans = 3276800

#系统中最多有多少个TCP套接字不被关联到任何一个用户文件句柄上。

#若是超过这个数字，链接将即刻被复位并打印出警告信息。

#这个限制仅仅是为了防止简单的DoS×××，不能过度依靠它或者人为地减少这个值，

#更应该增长这个值(若是增长了内存以后)。

net.ipv4.tcp_fin_timeout = 30

#若是套接字由本端要求关闭，这个参数决定了它保持在FIN-WAIT-2状态的时间。对端能够出错并永远不关闭链接，甚至意外当机。缺省值是60秒。2.2 内核的一般值是180秒，你能够按这个设置，但要记住的是，即便你的机器是一个轻载的WEB服务器，也有由于大量的死套接字而内存溢出的风险，FIN- WAIT-2的危险性比FIN-WAIT-1要小，由于它最多只能吃掉1.5K内存，可是它们的生存期长些。

输入下面的命令，让内核参数生效：

sysctl -p

通过这样的优化配置以后，你的服务器的TCP并发处理能力会显著提升。以上配置仅供参考，用于生产环境请根据本身的实际状况。

下面所列参数是老男孩老师生产中经常使用的参数：

net.ipv4.tcp_syn_retries = 1
net.ipv4.tcp_synack_retries = 1
net.ipv4.tcp_keepalive_time = 600
net.ipv4.tcp_keepalive_probes = 3
net.ipv4.tcp_keepalive_intvl =15
net.ipv4.tcp_retries2 = 5
net.ipv4.tcp_fin_timeout = 2
net.ipv4.tcp_max_tw_buckets = 36000
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_max_orphans = 32768
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_max_syn_backlog = 16384
net.ipv4.tcp_wmem = 8192 131072 16777216
net.ipv4.tcp_rmem = 32768 131072 16777216
net.ipv4.tcp_mem = 786432 1048576 1572864
net.ipv4.ip_local_port_range = 1024 65000
net.ipv4.ip_conntrack_max = 65536
net.ipv4.netfilter.ip_conntrack_max=65536
net.ipv4.netfilter.ip_conntrack_tcp_timeout_established=180
net.core.somaxconn = 16384
net.core.netdev_max_backlog = 16384
net.ipv4.tcp_max_orphans = 16384
#如下参数是对iptables防火墙的优化
nf_conntrack_max = 25000000
net.netfilter.nf_conntrack_max = 25000000
net.netfilter.nf_conntrack_tcp_timeout_established = 180
net.netfilter.nf_conntrack_tcp_timeout_time_wait = 120
net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60
net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 120

对比网上其余人的生产环境优化参数，须要优化的参数基本差很少，只是值有相应的变化。具体优化值要参考应用场景，这儿所列只是经常使用优化参数，是否适合，可在上面查看该参数描述，理解后，再根据本身生产环境而设。