有些网络应用在网线断开后从新连上的状况下tcp socket链接保持ESTABLISH状态不变,假如应用程式不使用tcp的keepalive,在网线断开以后,之前创建的 socket 连接仍然会保持在ESTABLISH 状态不会改变。实际上tcp协议对这部分是有所处理的,须要服务端程式,在配置socket属性时,使用 keepalive option,一旦有此配置,这些长时间无数据的连接会根据tcp的keepalive内核属性,在大于(tcp_keepalive_time(tcp_keepalive_probes * tcp_keepalive_intvl))所对应的时间(单位为秒)以后,断开这些连接。
关于keep alive不管windows,仍是linux,keepalive就三个参数:linux
sk->keepalive_probes: 探测次数windows
sk->keepalive_time: 探测的超时服务器
sk->keepalive_intvl: 探测间隔网络
对于一个已经创建的tcp链接,若是在keepalive_time时间内双方没有任何的数据包传输,则开启keepalive功能的一端将发送 eepalive数据包,若没有收到应答,则每隔keepalive_intvl时间再发送该数据包,发送keepalive_probes次。一直没有收到应答,则发送rst包关闭链接。若收到应答,则将计时器清零。例如★:socket
sk->keepalive_probes = 3;tcp
sk->keepalive_time = 30;函数
sk->keepalive_intvl = 1;测试
意思就是说对于tcp链接,若是一直在socket上有数据来往就不会触发keepalive,可是若是30秒一直没有数据往来,则keep alive开始工做:发送探测包,受到响应则认为网络,是好的,结束探测;若是没有相应就每隔1秒发探测包,一共发送3次,3次后仍没有相应,就关闭链接,也就是从网络开始断到你的socket可以意识到网络异常,最多花33秒。可是若是没有设置keep alive,可能你在你的socket(阻塞性)的上面,接收: recv会一直阻塞不能返回,除非对端主动关闭链接,由于recv不知道socket断了。发送:取决于数据量的大小,只要底层协议站的buffer能放 下你的发送数据,应用程序级别的send就会一直成功返回,直到buffer满,甚至buffer满了还要阻塞一段时间试图等待buffer空闲,因此你对send的返回值的检查根本检测不到失败。开启了keep alive功能,你直接经过发送接收的函数返回值就能够知道网络是否异常。设置的方法(应用层):spa
int keepalive = 1; // 开启keepalive属性线程
int keepidle = 60; // 如该链接在60秒内没有任何数据往来,则进行探测
int keepinterval = 5; // 探测时发包的时间间隔为5 秒
int keepcount = 3; // 探测尝试的次数.若是第1次探测包就收到响应了,则后2次的再也不发.
setsockopt(rs, SOL_SOCKET, SO_KEEPALIVE, (void *)&keepalive , sizeof(keepalive ));
setsockopt(rs, SOL_TCP, TCP_KEEPIDLE, (void*)&keepidle , sizeof(keepidle ));
setsockopt(rs, SOL_TCP, TCP_KEEPINTVL, (void *)&keepinterval , sizeof(keepinterval ));
setsockopt(rs, SOL_TCP, TCP_KEEPCNT, (void *)&keepcount , sizeof(keepcount ));
select和keep alive的关系
select是为单个线程使用多个socket而设计的,跟检测链接无关,若是只是检测一个socket的话,没有必要使用select。开了keepalive机能的话,每次调用recv或send时检查返回值,判断是否出错或为0。若是出错,再检查errno查资料,看哪一个或哪几个错误号表示连接断了或不存在就能够了。
另外,谁想按期检查链接情况,谁就启用keep alive。另外一端能够不起,只是被动地对探测包进行响应,这种响应是tcp协议的基本要求,跟keep alive无关,并不须要客户端和服务器端都开启keep alive。
测试结果
按照以上举例★的值在一端的socket上开启keep alive,而后阻塞在一个recv或者不停的send,这个时候拔了网线,测试从拔掉网线到recv/send返回失败的时间。
在linux kernel里头的测试发现,对于阻塞型的socket,当recv的时候,若是没有设置keep alive,即便网线拔掉或者ifdown,recv很长时间不会返回,最长达17分钟,虽然这个时间比linux的默认超时时间短了不少。可是若是设置了keep alive,基本都在keepalive_time+keepalive_probes*keepalive_intvl =33秒内返回错误。
可是对于循环不停send的socket,当拔掉网线后,会持续一段时间send返回成功(0~10秒左右,取决于发送数据的量),而后send阻塞,由于协议层的buffer满了,在等待buffer空闲,大概90秒左右后才会返回错误。由此看来,send的时候,keep alive彷佛没有起到做用,这个缘由至今也不清楚。后来经过给send以前设置timer来解决的。