time_wait和close_wait产生缘由及解决

时间 2019-11-06

标签 time wait close 产生缘由解决栏目 Java 繁體版

原文原文链接

在服务器的平常维护过程当中，会常常用到下面的命令：
netstat -n | awk ‘/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}’
其中$NF表示最后一个字段
它会显示例以下面的信息：
TIME_WAIT 814
CLOSE_WAIT 1
FIN_WAIT1 1
ESTABLISHED 634
SYN_RECV 2
LAST_ACK 1
经常使用的三个状态是：ESTABLISHED 表示正在通讯，TIME_WAIT 表示主动关闭，CLOSE_WAIT 表示被动关闭。linux

再具体一点，四次挥手的交互过程以下：
客户端先发送FIN，进入FIN_WAIT1状态
服务端收到FIN，发送ACK，进入CLOSE_WAIT状态，客户端收到这个ACK，进入FIN_WAIT2状态
服务端发送FIN，进入LAST_ACK状态
客户端收到FIN，发送ACK，进入TIME_WAIT状态，服务端收到ACK，进入CLOSE状态
客户端TIME_WAIT持续2倍MSL时长，在linux体系中大概是60s，转换成CLOSE状态服务器

能不能发送完ACK以后不进入TIME_WAIT就直接进入CLOSE状态呢？不行的，这个是为了TCP协议的可靠性，因为网络缘由，ACK可能会发送失败，那么这个时候，被动一方会主动从新发送一次FIN，这个时候若是主动方在TIME_WAIT状态，则还会再发送一次ACK，从而保证可靠性。那么从这个解释来讲，2MSL的时长设定是能够理解的，MSL是报文最大生存时间，若是从新发送，一个FIN＋一个ACK，再加上不按期的延迟时间，大体是在2MSL的范围。
若是服务器出了异常，百分之八九十都是下面两种状况：
1.服务器保持了大量TIME_WAIT状态
2.服务器保持了大量CLOSE_WAIT状态
由于linux分配给一个用户的文件句柄是有限的，而TIME_WAIT和CLOSE_WAIT两种状态若是一直被保持，那么意味着对应数目的通道就一直被占着，一旦达到句柄数上限，新的请求就没法被处理了，接着应用程序可能返回大量Too Many Open Files异常。
1）服务端的Time-wait过多
先来讲一说长链接和短链接，在HTTP1.1协议中，有个 Connection 头，Connection有两个值，close和keep-alive，这个头就至关于客户端告诉服务端，服务端你执行完成请求以后，是关闭链接仍是保持链接。若是服务器使用的短链接，那么每次客户端请求后，服务器都会主动发送FIN关闭链接。最后进入time_wait状态。可想而知，对于访问量大的Web Server，会存在大量的TIME_WAIT状态。让服务器可以快速回收和重用那些TIME_WAIT的资源，能够修改内核参数。
修改/etc/sysctl.conf以下：
#对于一个新建链接，内核要发送多少个 SYN 链接请求才决定放弃,不该该大于255，默认值是5，对应于180秒左右时间
net.ipv4.tcp_syn_retries=2
#net.ipv4.tcp_synack_retries=2
#表示当keepalive起用的时候，TCP发送keepalive消息的频度。缺省是2小时，改成300秒
net.ipv4.tcp_keepalive_time=1200
net.ipv4.tcp_orphan_retries=3
#表示若是套接字由本端要求关闭，这个参数决定了它保持在FIN-WAIT-2状态的时间
net.ipv4.tcp_fin_timeout=30
#表示SYN队列的长度，默认为1024，加大队列长度为8192，能够容纳更多等待链接的网络链接数。
net.ipv4.tcp_max_syn_backlog = 4096
#表示开启SYN Cookies。当出现SYN等待队列溢出时，启用cookies来处理，可防范少许SYN攻击，默认为0，表示关闭
net.ipv4.tcp_syncookies = 1cookie

#表示开启重用。容许将TIME-WAIT sockets从新用于新的TCP链接，默认为0，表示关闭
net.ipv4.tcp_tw_reuse = 1
#表示开启TCP链接中TIME-WAIT sockets的快速回收，默认为0，表示关闭
net.ipv4.tcp_tw_recycle = 1网络

##减小超时前的探测次数
net.ipv4.tcp_keepalive_probes=5
##优化网络设备接收队列
net.core.netdev_max_backlog=3000
修改完以后执行/sbin/sysctl -p让参数生效。socket

2）close_wait
若是一直保持在CLOSE_WAIT状态，那么只有一种状况，就是在对方关闭链接以后服务器程序本身没有进一步发出FIN信号，通常缘由都是TCP链接没有调用关闭方法。换句话说，就是在对方链接关闭以后，程序里没有检测到，或者程序压根就忘记了这个时候须要关闭链接，因而这个资源就一直被程序占着。这种状况，经过服务器内核参数也没办法解决，服务器对于程序抢占的资源没有主动回收的权利，除非终止程序运行，必定程度上，可使用TCP的KeepAlive功能，让操做系统替咱们自动清理掉CLOSE_WAIT链接。
可是实际上，仍是主要是由于咱们的程序代码有问题，一般是以下问题：
当对方调用closesocket的时候，你的程序正在tcp

C代码
int nRet = recv(s,….);
if (nRet == SOCKET_ERROR)
{
// closesocket(s);
return FALSE;
} 不少人就是忘记了那句closesocket
当主动关闭的一方发送FIN到被动关闭这边后，被动关闭这边的 TCP立刻回应一个ACK过去，同时向上面应用程序提交一个ERROR，
致使上面的SOCKET的send或者recv返回SOCKET_ERROR，正常状况下，若是上面在返回SOCKET_ERROR后调用了 closesocket,那么被动关闭的者一方的TCP就会发送一个FIN过去，本身的状态就变迁到LAST_ACK。优化