TCP链接状态详解及TIME_WAIT过多的解决方法

时间 2019-11-08

标签 tcp 链接状态详解 time wait 过多解决方法栏目系统网络繁體版

原文原文链接

TIME_WAIT状态原理html

----------------------------java

通讯双方创建TCP链接后，主动关闭链接的一方就会进入TIME_WAIT状态。nginx

客户端主动关闭链接时，会发送最后一个ack后，而后会进入TIME_WAIT状态，再停留2个MSL时间(后有MSL的解释)，进入CLOSED状态。后端

下图是以客户端主动关闭链接为例，说明这一过程的。安全

TIME_WAIT状态存在的理由服务器

----------------------------cookie

TCP/IP协议就是这样设计的，是不可避免的。主要有两个缘由:网络

1）可靠地实现TCP全双工链接的终止并发

TCP协议在关闭链接的四次握手过程当中，最终的ACK是由主动关闭链接的一端（后面统称A端）发出的，若是这个ACK丢失，对方（后面统称B端）将重发出最终的FIN，所以A端必须维护状态信息（TIME_WAIT）容许它重发最终的ACK。若是A端不维持TIME_WAIT状态，而是处于CLOSED 状态，那么A端将响应RST分节，B端收到后将此分节解释成一个错误（在java中会抛出connection reset的SocketException)。app

于是，要实现TCP全双工链接的正常终止，必须处理终止过程当中四个分节任何一个分节的丢失状况，主动关闭链接的A端必须维持TIME_WAIT状态。

2）容许老的重复分节在网络中消逝

TCP分节可能因为路由器异常而“迷途”，在迷途期间，TCP发送端可能因确认超时而重发这个分节，迷途的分节在路由器修复后也会被送到最终目的地，这个迟到的迷途分节到达时可能会引发问题。在关闭“前一个链接”以后，立刻又从新创建起一个相同的IP和端口之间的“新链接”，“前一个链接”的迷途重复分组在“前一个链接”终止后到达，而被“新链接”收到了。为了不这个状况，TCP协议不容许处于TIME_WAIT状态的链接启动一个新的可用链接，由于TIME_WAIT状态持续2MSL，就能够保证当成功创建一个新TCP链接的时候，来自旧链接重复分组已经在网络中消逝。

MSL时间

----------------------------

MSL就是maximum segment lifetime(最大分节生命期），这是一个IP数据包能在互联网上生存的最长时间，超过这个时间IP数据包将在网络中消失。MSL在RFC 1122上建议是2分钟，而源自berkeley的TCP实现传统上使用30秒。

TIME_WAIT状态维持时间

----------------------------

TIME_WAIT状态维持时间是两个MSL时间长度，也就是在1-4分钟。Windows操做系统就是4分钟。

http://www.cnblogs.com/itcomputer/p/7150954.html

上图对排除和定位网络或系统故障时大有帮助，可是怎样紧紧地将这张图刻在脑中呢？那么你就必定要对这张图的每个状态，及转换的过程有深入地认识，不能只停留在只知其一;不知其二之中。下面对这张图的11种状态详细解释一下，以便增强记忆！不过在这以前，先回顾一下TCP创建链接的三次握手过程，以及关闭链接的四次握手过程。

一、创建链接协议（三次握手）
（1）客户端发送一个带SYN标志的TCP报文到服务器。这是三次握手过程当中的报文1。

（2）服务器端回应客户端的，这是三次握手中的第2个报文，这个报文同时带ACK标志和SYN标志。所以它表示对刚才客户端SYN报文的回应；同时又标志SYN给客户端，询问客户端是否准备好进行数据通信。

（3）客户必须再次回应服务段一个ACK报文，这是报文段3。

二、链接终止协议（四次握手）
因为TCP链接是全双工的，所以每一个方向都必须单独进行关闭。这原则是当一方完成它的数据发送任务后就能发送一个FIN来终止这个方向的链接。收到一个 FIN只意味着这一方向上没有数据流动，一个TCP链接在收到一个FIN后仍能发送数据。首先进行关闭的一方将执行主动关闭，而另外一方执行被动关闭。

（1） TCP客户端发送一个FIN，用来关闭客户到服务器的数据传送（报文段4）。
（2）服务器收到这个FIN，它发回一个ACK，确认序号为收到的序号加1（报文段5）。和SYN同样，一个FIN将占用一个序号。
（3）服务器关闭客户端的链接，发送一个FIN给客户端（报文段6）。
（4）客户段发回ACK报文确认，并将确认序号设置为收到序号加1（报文段7）。

CLOSED: 这个没什么好说的了，表示初始状态。

LISTEN: 这个也是很是容易理解的一个状态，表示服务器端的某个SOCKET处于监听状态，能够接受链接了。

SYN_RCVD: 这个状态表示接受到了SYN报文，在正常状况下，这个状态是服务器端的SOCKET在创建TCP链接时的三次握手会话过程当中的一个中间状态，很短暂，基本上用netstat你是很难看到这种状态的，除非你特地写了一个客户端测试程序，故意将三次TCP握手过程当中最后一个ACK报文不予发送。所以这种状态时，当收到客户端的ACK报文后，它会进入到ESTABLISHED状态。

SYN_SENT: 这个状态与SYN_RCVD遥想呼应，当客户端SOCKET执行CONNECT链接时，它首先发送SYN报文，所以也随即它会进入到了SYN_SENT状态，并等待服务端的发送三次握手中的第2个报文。SYN_SENT状态表示客户端已发送SYN报文。

ESTABLISHED：这个容易理解了，表示链接已经创建了。

FIN_WAIT_1: 这个状态要好好解释一下，其实FIN_WAIT_1和FIN_WAIT_2状态的真正含义都是表示等待对方的FIN报文。而这两种状态的区别是：FIN_WAIT_1状态其实是当SOCKET在ESTABLISHED状态时，它想主动关闭链接，向对方发送了FIN报文，此时该SOCKET即进入到FIN_WAIT_1状态。而当对方回应ACK报文后，则进入到FIN_WAIT_2状态，固然在实际的正常状况下，不管对方何种状况下，都应该立刻回应ACK报文，因此FIN_WAIT_1状态通常是比较难见到的，而FIN_WAIT_2状态还有时经常能够用netstat看到。

FIN_WAIT_2：上面已经详细解释了这种状态，实际上FIN_WAIT_2状态下的SOCKET，表示半链接，也即有一方要求close链接，但另外还告诉对方，我暂时还有点数据须要传送给你，稍后再关闭链接。

TIME_WAIT: 表示收到了对方的FIN报文，并发送出了ACK报文，就等2MSL后便可回到CLOSED可用状态了。若是FIN_WAIT_1状态下，收到了对方同时带FIN标志和ACK标志的报文时，能够直接进入到TIME_WAIT状态，而无须通过FIN_WAIT_2状态。

注:MSL(最大分段生存期)指明TCP报文在Internet上最长生存时间,每一个具体的TCP实现都必须选择一个肯定的MSL值.RFC 1122建议是2分钟,但BSD传统实现采用了30秒.TIME_WAIT 状态最大保持时间是2 * MSL,也就是1-4分钟.

CLOSING: 这种状态比较特殊，实际状况中应该是不多见，属于一种比较罕见的例外状态。正常状况下，当你发送FIN报文后，按理来讲是应该先收到（或同时收到）对方的ACK报文，再收到对方的FIN报文。可是CLOSING状态表示你发送FIN报文后，并无收到对方的ACK报文，反而却也收到了对方的FIN报文。什么状况下会出现此种状况呢？其实细想一下，也不可贵出结论：那就是若是双方几乎在同时close一个SOCKET的话，那么就出现了双方同时发送FIN报文的状况，也即会出现CLOSING状态，表示双方都正在关闭SOCKET链接。

CLOSE_WAIT: 这种状态的含义实际上是表示在等待关闭。怎么理解呢？当对方close一个SOCKET后发送FIN报文给本身，你系统毫无疑问地会回应一个ACK报文给对方，此时则进入到CLOSE_WAIT状态。接下来呢，实际上你真正须要考虑的事情是察看你是否还有数据发送给对方，若是没有的话，那么你也就能够close这个SOCKET，发送FIN报文给对方，也即关闭链接。因此你在CLOSE_WAIT状态下，须要完成的事情是等待你去关闭链接。

LAST_ACK: 这个状态仍是比较容易好理解的，它是被动关闭一方在发送FIN报文后，最后等待对方的ACK报文。当收到ACK报文后，也便可以进入到CLOSED可用状态了。

最后有2个问题的回答，我本身分析后的结论（不必定保证100%正确）

一、为何创建链接协议是三次握手，而关闭链接倒是四次握手呢？

这是由于服务端的LISTEN状态下的SOCKET当收到SYN报文的建连请求后，它能够把ACK和SYN（ACK起应答做用，而SYN起同步做用）放在一个报文里来发送。但关闭链接时，当收到对方的FIN报文通知时，它仅仅表示对方没有数据发送给你了；但未必你全部的数据都所有发送给对方了，因此你能够未必会立刻会关闭SOCKET,也即你可能还须要发送一些数据给对方以后，再发送FIN报文给对方来表示你赞成如今能够关闭链接了，因此它这里的ACK报文和FIN报文多数状况下都是分开发送的。

二、为何TIME_WAIT状态还须要等2MSL后才能返回到CLOSED状态？

这是由于：虽然双方都赞成关闭链接了，并且握手的4个报文也都协调和发送完毕，按理能够直接回到CLOSED状态（就比如从SYN_SEND状态到ESTABLISH状态那样）；可是由于咱们必需要假想网络是不可靠的，你没法保证你最后发送的ACK报文会必定被对方收到，所以对方处于LAST_ACK状态下的SOCKET可能会由于超时未收到ACK报文，而重发FIN报文，因此这个TIME_WAIT状态的做用就是用来重发可能丢失的ACK报文，并保证于此。

查看当前系统下全部链接状态的数：

[root@vps ~]#netstat -n|awk '/^tcp/{++S[$NF]}END{for (key in S) print key,S[key]}'
TIME_WAIT 286
FIN_WAIT1 5
FIN_WAIT2 6
ESTABLISHED 269
SYN_RECV 5
CLOSING 1

如发现系统存在大量TIME_WAIT状态的链接，经过调整内核参数解决：
编辑文件/etc/sysctl.conf，加入如下内容：

net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_fin_timeout = 30

而后执行 /sbin/sysctl -p 让参数生效。

net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时，启用cookies来处理，可防范少许SYN攻击，默认为0，表示关闭；
net.ipv4.tcp_tw_reuse = 1 表示开启重用。容许将TIME-WAIT sockets从新用于新的TCP链接，默认为0，表示关闭；
net.ipv4.tcp_tw_recycle = 1 表示开启TCP链接中TIME-WAIT sockets的快速回收，默认为0，表示关闭。
net.ipv4.tcp_fin_timeout 修改系默认的 TIMEOUT 时间

其它参数说明：
net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时，启用cookies来处理，可防范少许SYN攻击，默认为0，表示关闭；
net.ipv4.tcp_tw_reuse = 1 表示开启重用。容许将TIME-WAIT sockets从新用于新的TCP链接，默认为0，表示关闭；
net.ipv4.tcp_tw_recycle = 1 表示开启TCP链接中TIME-WAIT sockets的快速回收，默认为0，表示关闭。
net.ipv4.tcp_fin_timeout = 30 表示若是套接字由本端要求关闭，这个参数决定了它保持在FIN-WAIT-2状态的时间。
net.ipv4.tcp_keepalive_time = 1200 表示当keepalive起用的时候，TCP发送keepalive消息的频度。缺省是2小时，改成20分钟。
net.ipv4.ip_local_port_range = 1024 65000 表示用于向外链接的端口范围。缺省状况下很小：32768到61000，改成1024到65000。
net.ipv4.tcp_max_syn_backlog = 8192 表示SYN队列的长度，默认为1024，加大队列长度为8192，能够容纳更多等待链接的网络链接数。
net.ipv4.tcp_max_tw_buckets = 5000 表示系统同时保持TIME_WAIT套接字的最大数量，若是超过这个数字，TIME_WAIT套接字将马上被清除并打印警告信息。
默认为180000，改成5000。对于Apache、Nginx等服务器，上几行的参数能够很好地减小TIME_WAIT套接字数量，可是对于Squid，效果却不大。此项参数能够控制TIME_WAIT套接字的最大数量，避免Squid服务器被大量的TIME_WAIT套接字拖死。

注:
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1

设置这两个参数： reuse是表示是否容许从新应用处于TIME-WAIT状态的socket用于新的TCP链接； recyse是加速TIME-WAIT sockets回收

http://blog.sina.com.cn/s/blog_8e5d24890102w9yi.html

用于统计当前各类状态的链接的数量的命令

---------------------------

#netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

返回结果以下：

LAST_ACK 14

SYN_RECV 348

ESTABLISHED 70

FIN_WAIT1 229

FIN_WAIT2 30

CLOSING 33

TIME_WAIT 18122

对上述结果的解释：

CLOSED：无链接是活动的或正在进行

LISTEN：服务器在等待进入呼叫

SYN_RECV：一个链接请求已经到达，等待确认

SYN_SENT：应用已经开始，打开一个链接

ESTABLISHED：正常数据传输状态

FIN_WAIT1：应用说它已经完成

FIN_WAIT2：另外一边已赞成释放

ITMED_WAIT：等待全部分组死掉

CLOSING：两边同时尝试关闭

TIME_WAIT：另外一边已初始化一个释放

LAST_ACK：等待全部分组死掉

进一步论述这个问题：

===============================

--------------客户端主动关闭链接-----------------------

注意一个问题，进入TIME_WAIT状态的通常状况下是客户端。

大多数服务器端通常执行被动关闭，服务器不会进入TIME_WAIT状态。

当在服务器端关闭某个服务再从新启动时，服务器是会进入TIME_WAIT状态的。

举例：

1.客户端链接服务器的80服务，这时客户端会启用一个本地的端口访问服务器的80，访问完成后关闭此链接，马上再次访问服务器的80，这时客户端会启用另外一个本地的端口，而不是刚才使用的那个本地端口。缘由就是刚才的那个链接还处于TIME_WAIT状态。

2.客户端链接服务器的80服务，这时服务器关闭80端口，当即再次重启80端口的服务，这时可能不会成功启动，缘由也是服务器的链接还处于TIME_WAIT状态。

服务端提供服务时，通常监听一个端口就够了。例如Apach监听80端口。

客户端则是使用一个本地的空闲端口（大于1024），与服务端的Apache的80端口创建链接。

当通讯时使用短链接，并由客户端主动关闭链接时，主动关闭链接的客户端会产生TIME_WAIT状态的链接，一个TIME_WAIT状态的链接就占用了一个本地端口。这样在TIME_WAIT状态结束以前，本地最多就能承受6万个TIME_WAIT状态的链接，就无故口可用了。

客户端与服务端进行短链接的TCP通讯，若是在同一台机器上进行压力测试模拟上万的客户请求，而且循环与服务端进行短链接通讯，那么这台机器将产生4000个左右的TIME_WAIT socket，后续的短链接就会产生address already in use : connect的异常。

关闭的时候使用RST的方式，不进入 TIME_WAIT状态，是否可行？

--------------服务端主动关闭链接------------------------------

服务端提供在服务时，通常监听一个端口就够了。例如Apach监听80端口。

客户端则是使用一个本地的空闲端口（大于1024），与服务端的Apache的80端口创建链接。

当通讯时使用短链接，并由服务端主动关闭链接时，主动关闭链接的服务端会产生TIME_WAIT状态的链接。

因为都链接到服务端80端口，服务端的TIME_WAIT状态的链接会有不少个。

假如server一秒钟处理1000个请求，那么就会积压240秒*1000=24万个TIME_WAIT的记录，服务有能力维护这24万个记录。

大多数服务器端通常执行被动关闭，服务器不会进入TIME_WAIT状态。

服务端为了解决这个TIME_WAIT问题，可选择的方式有三种：

Ø 保证由客户端主动发起关闭（即作为B端）

Ø 关闭的时候使用RST的方式

Ø 对处于TIME_WAIT状态的TCP容许重用

通常Apache的配置是：

Timeout 30

KeepAlive On #表示服务器端不会主动关闭连接

MaxKeepAliveRequests 100

KeepAliveTimeout 180

表示：Apache不会主动关闭连接，

两种状况下Apache会主动关闭链接：

一、Apache收到了http协议头中有客户端要求Apache关闭链接信息，如setRequestHeader("Connection", "close");

二、链接保持时间达到了180秒的超时时间，将关闭。

若是配置以下：

KeepAlive Off #表示服务器端会响应完数据后主动关闭连接

--------------有代理时------------------------------

nginx代理使用了短连接的方式和后端交互，若是使用了nginx代理，那么系统TIME_WAIT的数量会变得比较多，这是因为nginx代理使用了短连接的方式和后端交互的缘由，使得nginx和后端的ESTABLISHED变得不多而TIME_WAIT不少。这不但发生在安装nginx的代理服务器上，并且也会使后端的app服务器上有大量的TIME_WAIT。查阅TIME_WAIT资料，发现这个状态不少也没什么大问题，但可能由于它占用了系统过多的端口，致使后续的请求没法获取端口而形成障碍。

对于大型的服务，一台server搞不定，须要一个LB(Load Balancer)把流量分配到若干后端服务器上，若是这个LB是以NAT方式工做的话，可能会带来问题。假如全部从LB到后端Server的IP包的source address都是同样的(LB的对内地址），那么LB到后端Server的TCP链接会受限制，由于频繁的TCP链接创建和关闭，会在server上留下TIME_WAIT状态，并且这些状态对应的remote address都是LB的，LB的source port撑死也就60000多个(2^16=65536,1~1023是保留端口，还有一些其余端口缺省也不会用），每一个LB上的端口一旦进入Server的TIME_WAIT黑名单，就有240秒不能再用来创建和Server的链接，这样LB和Server最多也就能支持300个左右的链接。若是没有LB，不会有这个问题，由于这样server看到的remote address是internet上广阔无垠的集合，对每一个address，60000多个port实在是够用了。

一开始我以为用上LB会很大程度上限制TCP的链接数，可是实验代表没这回事，LB后面的一台Windows Server 2003每秒处理请求数照样达到了600个，难道TIME_WAIT状态没起做用？用Net Monitor和netstat观察后发现，Server和LB的XXXX端口之间的链接进入TIME_WAIT状态后，再来一个LB的XXXX端口的SYN包，Server照样接收处理了，而是想像的那样被drop掉了。翻书，从书堆里面找出覆满尘土的大学时代买的《UNIX Network Programming, Volume 1, Second Edition: Networking APIs: Sockets and XTI》，中间提到一句，对于BSD-derived实现，只要SYN的sequence number比上一次关闭时的最大sequence number还要大，那么TIME_WAIT状态同样接受这个SYN，难不成Windows也算BSD-derived?有了这点线索和关键字(BSD)，找到这个post，在NT4.0的时候，仍是和BSD-derived不同的，不过Windows Server 2003已是NT5.2了，也许有点差异了。

作个试验，用Socket API编一个Client端，每次都Bind到本地一个端口好比2345，重复的创建TCP链接往一个Server发送Keep-Alive=false的HTTP请求，Windows的实现让sequence number不断的增加，因此虽然Server对于Client的2345端口链接保持TIME_WAIT状态，可是老是可以接受新的请求，不会拒绝。那若是SYN的Sequence Number变小会怎么样呢？一样用Socket API，不过此次用Raw IP，发送一个小sequence number的SYN包过去，Net Monitor里面看到，这个SYN被Server接收后如泥牛如海，一点反应没有，被drop掉了。

按照书上的说法，BSD-derived和Windows Server 2003的作法有安全隐患，不过至少这样至少不会出现TIME_WAIT阻止TCP请求的问题，固然，客户端要配合，保证不一样TCP链接的sequence number要上涨不要降低。

-------------------------------------------

Q: 我正在写一个unix server程序，不是daemon，常常须要在命令行上重启它，绝大多数时候工做正常，可是某些时候会报告"bind: address in use"，因而重启失败。

A: Andrew Gierth

server程序老是应该在调用bind()以前设置SO_REUSEADDR套接字选项。至于 TIME_WAIT状态，你没法避免，那是TCP协议的一部分。

Q: 编写 TCP/SOCK_STREAM 服务程序时，SO_REUSEADDR到底什么意思？

A: 这个套接字选项通知内核，若是端口忙，但TCP状态位于 TIME_WAIT ，能够重用端口。若是端口忙，而TCP状态位于其余状态，重用端口时依旧获得一个错误信息，指明"地址已经使用中"。若是你的服务程序中止后想当即重启，而新套接字依旧使用同一端口，此时 SO_REUSEADDR 选项很是有用。必须意识到，此时任何非期望数据到达，均可能致使服务程序反应混乱，不过这只是一种可能，事实上很不可能。

一个套接字由相关五元组构成，协议、本地地址、本地端口、远程地址、远程端口。SO_REUSEADDR 仅仅表示能够重用本地本地地址、本地端口，整个相关五元组仍是惟一肯定的。因此，重启后的服务程序有可能收到非指望数据。必须慎重使用 SO_REUSEADDR 选项。