一次压力测试Bug排查-epoll使用避坑指南

本文始发于我的公众号:两猿社,原创不易,求个关注html

Bug复现

使用Webbench对服务器进行压力测试,建立1000个客户端,并发访问服务器10s,正常状况下有接近8万个HTTP请求访问服务器。web

结果显示仅有7个请求被成功处理,0个请求处理失败,服务器也没有返回错误。此时,从浏览器端访问服务器,发现该请求也不能被处理和响应,必须将服务器重启后,浏览器端才能访问正常。编程

<div align=center><img src="http://ww1.sinaimg.cn/large/005TJ2c7ly1gc6n34smiqj30fq05lq3l.jpg" height="200"/> </div>浏览器


排查过程

经过查询服务器运行日志,对服务器接收HTTP请求链接,HTTP处理逻辑两部分进行排查。服务器

日志中显示,7个请求报文为:GET / HTTP/1.0的HTTP请求被正确处理和响应,排除HTTP处理逻辑错误并发

<div align=center><img src="http://ww1.sinaimg.cn/large/005TJ2c7ly1gc6nhkp8gbj30jd0eiq7i.jpg" height="300"/> </div>socket

所以,将重点放在接收HTTP请求链接部分。其中,服务器端接收HTTP请求的链接步骤为socket -> bind -> listen -> accept;客户端链接请求步骤为socket -> connect。函数

listen

#include<sys/socket.h>
int listen(int sockfd, int backlog)
  • 函数功能,把一个未链接的套接字转换成一个被动套接字,指示内核应接受指向该套接字的链接请求。根据TCP状态转换图,调用listen致使套接字从CLOSED状态转换成LISTEN状态
  • backlog是队列的长度,内核为任何一个给定的监听套接口维护两个队列:
    • 未完成链接队列(incomplete connection queue),每一个这样的 SYN 分节对应其中一项:已由某个客户发出并到达服务器,而服务器正在等待完成相应的 TCP 三次握手过程。这些套接口处于 SYN_RCVD 状态
    • 已完成链接队列(completed connection queue),每一个已完成 TCP 三次握手过程的客户对应其中一项。这些套接口处于ESTABLISHED状态

connect

  • 当有客户端主动链接(connect)服务器,Linux 内核就自动完成TCP 三次握手,该项就从未完成链接队列移到已完成链接队列的队尾,将创建好的链接自动存储到队列中,如此重复。

accept

  • 函数功能,从处于ESTABLISHED状态的链接队列头部取出一个已经完成的链接(三次握手以后)。
  • 若是这个队列没有已经完成的链接,accept函数就会阻塞,直到取出队列中已完成的用户链接为止。
  • 若是,服务器不能及时调用 accept取走队列中已完成的链接,队列满掉后,TCP就绪队列中剩下的链接都得不处处理,同时新的链接也不会到来。

从上面的分析中能够看出,accept若是没有将队列中的链接取完,就绪队列中剩下的链接都得不处处理,也不能接收新请求,这个特性与压力测试的Bug十分相似测试


定位accept

//对文件描述符设置非阻塞
int setnonblocking(int fd){
    int old_option=fcntl(fd,F_GETFL);
    int new_option=old_option | O_NONBLOCK;
    fcntl(fd,F_SETFL,new_option);
    return old_option;
}

//将内核事件表注册读事件,ET模式,选择开启EPOLLONESHOT
void addfd(int epollfd,int fd,bool one_shot)
{
    epoll_event event;
    event.data.fd=fd;
    event.events=EPOLLIN|EPOLLET|EPOLLRDHUP;
    if(one_shot)
        event.events|=EPOLLONESHOT;
    epoll_ctl(epollfd,EPOLL_CTL_ADD,fd,&event);
    setnonblocking(fd);
}

//建立内核事件表
epoll_event events[MAX_EVENT_NUMBER];
int epollfd=epoll_create(5);
assert(epollfd!=-1);

//将listenfd设置为ET边缘触发
addfd(epollfd,listenfd,false);

int number=epoll_wait(epollfd,events,MAX_EVENT_NUMBER,-1);

if(number<0&&errno!=EINTR)
{
    printf("epoll failure\n");
    break;
}

for(int i=0;i<number;i++)
{
    int sockfd=events[i].data.fd;

    //处理新到的客户链接
    if(sockfd==listenfd)
    {
        struct sockaddr_in client_address;
        socklen_t client_addrlength=sizeof(client_address);
		
		//定位accept
		//从listenfd中接收数据
        int connfd=accept(listenfd,(struct sockaddr*)&client_address,&client_addrlength);
        if(connfd<0)
        {
            printf("errno is:%d\n",errno);
            continue;
        }
		//TODO,逻辑处理
    }
}

分析代码发现,web端和服务器端创建链接,采用epoll的边缘触发模式同时监听多个文件描述符。spa

epoll的ET、LT

  • LT水平触发模式
    • epoll_wait检测到文件描述符有事件发生,则将其通知给应用程序,应用程序能够不当即处理该事件。
    • 当下一次调用epoll_wait时,epoll_wait还会再次向应用程序报告此事件,直至被处理。
  • ET边缘触发模式
    • epoll_wait检测到文件描述符有事件发生,则将其通知给应用程序,应用程序必须当即处理该事件。
    • 必需要一次性将数据读取完,使用非阻塞I/O,读取到出现eagain

从上面的定位分析,问题多是错误使用epoll的ET模式


代码分析修改

尝试将listenfd设置为LT阻塞,或者ET非阻塞模式下while包裹accept对代码进行修改,这里以ET非阻塞为例。

for(int i=0;i<number;i++)
{
    int sockfd=events[i].data.fd;

    //处理新到的客户链接
    if(sockfd==listenfd)
    {
        struct sockaddr_in client_address;
        socklen_t client_addrlength=sizeof(client_address);
		
		//从listenfd中接收数据
		//这里的代码出现使用错误
		while ((connfd = accept (listenfd, (struct sockaddr *) &remote, &addrlen)) > 0){
	        if(connfd<0)
	        {
	            printf("errno is:%d\n",errno);
	            continue;
	        }
			//TODO,逻辑处理
		}
    }
}

将代码修改后,从新进行压力测试,问题获得解决,服务器成功完成75617个访问请求,且没有出现任何失败的状况。压测结果以下:

<div align=center><img src="http://ww1.sinaimg.cn/large/005TJ2c7ly1gc6n55oypzj30fv05jaap.jpg" height="200"/> </div>


复盘总结

  • Bug缘由
    • established状态的链接队列backlog参数,历史上被定义为已链接队列和未链接队列两个的大小之和,大多数实现默认值为5。当链接较少时,队列不会变满,即便listenfd设置成ET非阻塞,不使用while一次性读取完,也不会出现Bug
    • 若此时1000个客户端同时对服务器发起链接请求,链接过多会形成established 状态的链接队列变满。但accept并无使用while一次性读取完,只读取一个。所以,链接过多致使TCP就绪队列中剩下的链接都得不处处理,同时新的链接也不会到来。
  • 解决方案
    • 将listenfd设置成LT阻塞,或者ET非阻塞模式下while包裹accept便可解决问题。

该Bug的出现,本质上对epoll的ET和LT模式实践编程较少,没有深入理解和深刻应用。

若是以为有所收获,请顺手点个关注吧,大家的举手之劳对我来讲很重要。

<div align=center><img src="http://ww1.sinaimg.cn/large/005TJ2c7ly1gc5hnxxwzqj30ij0cvjt8.jpg" height="350"/> </div>

原文出处:https://www.cnblogs.com/qinguoyi/p/12355519.html

相关文章
相关标签/搜索