epoll的两种工做模式

epoll有两种模式,Edge Triggered(简称ET) 和 Level Triggered(简称LT).在採用这两种模式时要注意的是,假设採用ET模式,那么仅当状态发生变化时才会通知,而採用LT模式相似于原来的select/poll操做,仅仅要还有没有处理的事件就会一直通知. 

以代码来讲明问题: 
首先给出server的代码,需要说明的是每次accept的链接,增长可读集的时候採用的都是ET模式,而且接收缓冲区是5字节的,也就是每次仅仅接收5字节的数据: 
Java代码   收藏代码
  1. #include <iostream>  
  2. #include <sys/socket.h>  
  3. #include <sys/epoll.h>  
  4. #include <netinet/in.h>  
  5. #include <arpa/inet.h>  
  6. #include <fcntl.h>  
  7. #include <unistd.h>  
  8. #include <stdio.h>  
  9. #include <errno.h>  
  10.   
  11. using namespace std;  
  12.   
  13. #define MAXLINE 5  
  14. #define OPEN_MAX 100  
  15. #define LISTENQ 20  
  16. #define SERV_PORT 5000  
  17. #define INFTIM 1000  
  18.   
  19. void setnonblocking(int sock)  
  20. {  
  21.     int opts;  
  22.     opts=fcntl(sock,F_GETFL);  
  23.     if(opts<0)  
  24.     {  
  25.         perror("fcntl(sock,GETFL)");  
  26.         exit(1);  
  27.     }  
  28.     opts = opts|O_NONBLOCK;  
  29.     if(fcntl(sock,F_SETFL,opts)<0)  
  30.     {  
  31.         perror("fcntl(sock,SETFL,opts)");  
  32.         exit(1);  
  33.     }     
  34. }  
  35.   
  36. int main()  
  37. {  
  38.     int i, maxi, listenfd, connfd, sockfd,epfd,nfds;  
  39.     ssize_t n;  
  40.     char line[MAXLINE];  
  41.     socklen_t clilen;  
  42.     //声明epoll_event结构体的变量,ev用于注冊事件,数组用于回传要处理的事件  
  43.     struct epoll_event ev,events[20];  
  44.     //生成用于处理accept的epoll专用的文件描写叙述符  
  45.     epfd=epoll_create(256);  
  46.     struct sockaddr_in clientaddr;  
  47.     struct sockaddr_in serveraddr;  
  48.     listenfd = socket(AF_INET, SOCK_STREAM, 0);  
  49.     //把socket设置为非堵塞方式  
  50.     //setnonblocking(listenfd);  
  51.     //设置与要处理的事件相关的文件描写叙述符  
  52.     ev.data.fd=listenfd;  
  53.     //设置要处理的事件类型  
  54.     ev.events=EPOLLIN|EPOLLET;  
  55.     //ev.events=EPOLLIN;  
  56.     //注冊epoll事件  
  57.     epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);  
  58.     bzero(&serveraddr, sizeof(serveraddr));  
  59.     serveraddr.sin_family = AF_INET;  
  60.     char *local_addr="127.0.0.1";  
  61.     inet_aton(local_addr,&(serveraddr.sin_addr));//htons(SERV_PORT);  
  62.     serveraddr.sin_port=htons(SERV_PORT);  
  63.     bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr));  
  64.     listen(listenfd, LISTENQ);  
  65.     maxi = 0;  
  66.     for ( ; ; ) {  
  67.         //等待epoll事件的发生  
  68.         nfds=epoll_wait(epfd,events,20,500);  
  69.         //处理所发生的所有事件       
  70.         for(i=0;i<nfds;++i)  
  71.         {  
  72.             if(events[i].data.fd==listenfd)  
  73.             {  
  74.                 connfd = accept(listenfd,(sockaddr *)&clientaddr, &clilen);  
  75.                 if(connfd<0){  
  76.                     perror("connfd<0");  
  77.                     exit(1);  
  78.                 }  
  79.                 //setnonblocking(connfd);  
  80.                 char *str = inet_ntoa(clientaddr.sin_addr);  
  81.                 cout << "accapt a connection from " << str << endl;  
  82.                 //设置用于读操做的文件描写叙述符  
  83.                 ev.data.fd=connfd;  
  84.                 //设置用于注測的读操做事件  
  85.                 ev.events=EPOLLIN|EPOLLET;  
  86.                 //ev.events=EPOLLIN;  
  87.                 //注冊ev  
  88.                 epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);  
  89.             }  
  90.             else if(events[i].events&EPOLLIN)  
  91.             {  
  92.                 cout << "EPOLLIN" << endl;  
  93.                 if ( (sockfd = events[i].data.fd) < 0)   
  94.                     continue;  
  95.                 if ( (n = read(sockfd, line, MAXLINE)) < 0) {  
  96.                     if (errno == ECONNRESET) {  
  97.                         close(sockfd);  
  98.                         events[i].data.fd = -1;  
  99.                     } else  
  100.                         std::cout<<"readline error"<<std::endl;  
  101.                 } else if (n == 0) {  
  102.                     close(sockfd);  
  103.                     events[i].data.fd = -1;  
  104.                 }  
  105.                 line[n] = '\0';  
  106.                 cout << "read " << line << endl;  
  107.                 //设置用于写操做的文件描写叙述符  
  108.                 ev.data.fd=sockfd;  
  109.                 //设置用于注測的写操做事件  
  110.                 ev.events=EPOLLOUT|EPOLLET;  
  111.                 //改动sockfd上要处理的事件为EPOLLOUT  
  112.                 //epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);  
  113.             }  
  114.             else if(events[i].events&EPOLLOUT)  
  115.             {     
  116.                 sockfd = events[i].data.fd;  
  117.                 write(sockfd, line, n);  
  118.                 //设置用于读操做的文件描写叙述符  
  119.                 ev.data.fd=sockfd;  
  120.                 //设置用于注測的读操做事件  
  121.                 ev.events=EPOLLIN|EPOLLET;  
  122.                 //改动sockfd上要处理的事件为EPOLIN  
  123.                 epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);  
  124.             }  
  125.         }  
  126.     }  
  127.     return 0;  
  128. }  


如下给出測试所用的Perl写的client端,在client中发送10字节的数据,同一时候让client在发送完数据以后进入死循环, 也就是在发送完以后链接的状态不发生改变--既再也不发送数据, 也不关闭链接,这样才干观察出server的状态: 
Java代码   收藏代码
  1. #!/usr/bin/perl  
  2.   
  3. use IO::Socket;  
  4.   
  5. my $host = "127.0.0.1";  
  6. my $port = 5000;  
  7.   
  8. my $socket = IO::Socket::INET->new("$host:$port") or die "create socket error $@";  
  9. my $msg_out = "1234567890";  
  10. print $socket $msg_out;  
  11. print "now send over, go to sleep \n";  
  12.   
  13. while (1)  
  14. {  
  15.     sleep(1);  
  16. }  

执行server和client发现,server只读取了5字节的数据,而client事实上发送了10字节的数据,也就是说,server仅当第一次监听到了EPOLLIN事件,由于没有读取完数据,而且採用的是ET模式,状态在此以后不发生变化,所以server再也接收不到EPOLLIN事件了. 
(友情提示:上面的这个測试client,当你关闭它的时候会再次出发IO可读事件给server,此时server就会去读取剩下的5字节数据了,但是这一事件与前面描写叙述的ET性质并不矛盾.) 

假设咱们把client改成这样: 
Java代码   收藏代码
  1. #!/usr/bin/perl  
  2.   
  3. use IO::Socket;  
  4.   
  5. my $host = "127.0.0.1";  
  6. my $port = 5000;  
  7.   
  8. my $socket = IO::Socket::INET->new("$host:$port") or die "create socket error $@";  
  9. my $msg_out = "1234567890";  
  10. print $socket $msg_out;  
  11. print "now send over, go to sleep \n";  
  12. sleep(5);  
  13. print "5 second gone send another line\n";  
  14. print $socket $msg_out;  
  15.   
  16. while (1)  
  17. {  
  18.     sleep(1);  
  19. }  


可以发现,在server接收完5字节的数据以后一直监听不到client的事件,而当client休眠5秒以后又一次发送数据,server再次监听到了变化,仅仅只是因为仅仅是读取了5个字节,仍然有10个字节的数据(client第二次发送的数据)没有接收完. 

假设上面的实验中,对accept的socket都採用的是LT模式,那么仅仅要还有数据留在buffer中,server就会继续获得通知,读者可以自行修改代码进行实验. 

基于这两个实验,可以得出这种结论:ET模式仅当状态发生变化的时候才得到通知,这里所谓的状态的变化并不包含缓冲区中还有未处理的数据,也就是说,假设要採用ET模式,需要一直read/write直到出错为止,很是多人反映为何採用ET模式仅仅接收了一部分数据就再也得不到通知了,大多因为这样;而LT模式是仅仅要有数据没有处理就会一直通知下去的. 
补充说明一下这里一直强调的"状态变化"是什么: 

1)对于监听可读事件时,假设是socket是监听socket,那么当有新的主动链接到来为状态发生变化;对通常的socket而言,协议栈中相应的缓冲区有新的数据为状态发生变化.但是,假设在一个时间同一时候接收了N个链接(N>1),但是监听socket仅仅accept了一个链接,那么其余未 accept的链接将不会在ET模式下给监听socket发出通知,此时状态不发生变化;对于通常的socket,就如样例中而言,假设相应的缓冲区自己已经有了N字节的数据,而仅仅取出了小于N字节的数据,那么残存的数据不会形成状态发生变化. 

2)对于监听可写事件时,同理可推,再也不详述. 

而不管是监听可读仍是可写,对方关闭socket链接都将形成状态发生变化,比方在样例中,假设强行中断client脚本,也就是主动中断了socket链接,那么都将形成server端发生状态的变化,从而server获得通知,将已经在本方缓冲区中的数据读出. 

把前面的描写叙述可以总结例如如下:仅当对方的动做(发出数据,关闭链接等)形成的事件才干致使状态发生变化,而本方协议栈中已经处理的事件(包含接收了对方的数据,接收了对方的主动链接请求)并不是形成状态发生变化的必要条件,状态变化必定是对方形成的.因此在ET模式下的,必须一直处理到出错或者全然处理完成,才干进行下一个动做,不然可能会错误发生. 

另外,从这个样例中,也可以阐述一些主要的网络编程概念.首先,链接的两端中,一端发送成功并不表明着对方上层应用程序接收成功, 就拿上面的client測试程序来讲,10字节的数据已经发送成功,但是上层的server并无调用read读取数据,所以发送成功只说明了数据被对方的协议栈接收存放在了相应的buffer中,而上层的应用程序是否接收了这部分数据不得而知;相同的,读取数据时也只表明着本方协议栈的相应buffer中有数据可读,而此时时候在对端是否在发送数据也不得而知. 




epoll精髓 
在linux的网络编程中,很是长的时间都在使用select来作事件触发。在linux新的内核中,有了一种替换它的机制,就是epoll。

 
相比于select。epoll最大的优势在于它不会随着监听fd数目的增加而减小效率。因为在内核中的select实现中,它是採用轮询来处理的,轮询的fd数目越多,天然耗时越多。并且。在linux/posix_types.h头文件有这种声明: 
#define __FD_SETSIZE    1024 
表示select最多同一时候监听1024个fd,固然,可以经过改动头文件再重编译内核来扩大这个数目,但这彷佛并不治本。 

epoll的接口很easy。一共就三个函数: 
1. int epoll_create(int size); 
建立一个epoll的句柄。size用来告诉内核这个监听的数目一共同拥有多大。这个參数不一样于select()中的第一个參数,给出最大监听的fd+1的值。linux

需要注意的是,当建立好epoll句柄后。它就是会占用一个fd值,在linux下假设查看/proc/进程id/fd/,是能够看到这个fd的。因此在使用完epoll后,必须调用close()关闭,不然可能致使fd被耗尽。 


2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event); 
epoll的事件注冊函数,它不一样与select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注冊要监听的事件类型。ios

第一个參数是epoll_create()的返回值。第二个參数表示动做,用三个宏来表示: 
EPOLL_CTL_ADD:注冊新的fd到epfd中; 
EPOLL_CTL_MOD:改动已经注冊的fd的监听事件; 
EPOLL_CTL_DEL:从epfd中删除一个fd; 
第三个參数是需要监听的fd。第四个參数是告诉内核需要监听什么事,struct epoll_event结构例如如下: 
nginx

Java代码   收藏代码
  1. struct epoll_event {  
  2.   __uint32_t events;  /* Epoll events */  
  3.   epoll_data_t data;  /* User data variable */  
  4. };  


events可以是下面几个宏的集合: 
EPOLLIN :表示相应的文件描写叙述符可以读(包含对端SOCKET正常关闭); 
EPOLLOUT:表示相应的文件描写叙述符可以写; 
EPOLLPRI:表示相应的文件描写叙述符有紧急的数据可读(这里应该表示有带外数据到来); 
EPOLLERR:表示相应的文件描写叙述符错误发生; 
EPOLLHUP:表示相应的文件描写叙述符被挂断; 
EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式。这是相对于水平触发(Level Triggered)来讲的。 
EPOLLONESHOT:仅仅监听一次事件。当监听完此次事件以后,假设还需要继续监听这个socket的话,需要再次把这个socket增长到EPOLL队列里 


3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout); 
等待事件的产生,相似于select()调用。

參数events用来从内核获得事件的集合,maxevents告以内核这个events有多大。这个maxevents的值不能大于建立epoll_create()时的size,參数timeout是超时时间(毫秒,0会立刻返回,-1将不肯定,也有说法说是永久堵塞)。该函数返回需要处理的事件数目。如返回0表示已超时。 

-------------------------------------------------------------------------------------------- 

从man手冊中。获得ET和LT的详细描写叙述例如如下 

EPOLL事件有两种模型: 
Edge Triggered (ET) 
Level Triggered (LT) 

假若有这样一个样例: 
1. 咱们已经把一个用来从管道中读取数据的文件句柄(RFD)加入到epoll描写叙述符 
2. 这个时候从管道的还有一端被写入了2KB的数据 
3. 调用epoll_wait(2),并且它会返回RFD,说明它已经准备好读取操做 
4. 而后咱们读取了1KB的数据 
5. 调用epoll_wait(2)...... 

Edge Triggered 工做模式: 
假设咱们在第1步将RFD加入到epoll描写叙述符的时候使用了EPOLLET标志。那么在第5步调用epoll_wait(2)以后将有可能会挂起,因为剩余的数据还存在于文件的输入缓冲区内。而且数据发出端还在等待一个针对已经发出数据的反馈信息。web

仅仅有在监视的文件句柄上发生了某个事件的时候 ET 工做模式才会汇报事件。所以在第5步的时候,调用者可能会放弃等待仍在存在于文件输入缓冲区内的剩余数据。在上面的样例中,会有一个事件产生在RFD句柄上。因为在第2步运行了一个写操做,而后,事件将会在第3步被销毁。数据库

因为第4步的读取操做没有读空文件输入缓冲区内的数据,所以咱们在第5步调用 epoll_wait(2)完毕后。是否挂起是不肯定的。编程

epoll工做在ET模式的时候,必须使用非堵塞套接口。以免由于一个文件句柄的堵塞读/堵塞写操做把处理多个文件描写叙述符的任务饿死。最好以如下的方式调用ET模式的epoll接口,在后面会介绍避免可能的缺陷。 
   i    基于非堵塞文件句柄 
   ii   仅仅有当read(2)或者write(2)返回EAGAIN时才需要挂起。等待。数组

但这并不是说每次read()时都需要循环读。直到读到产生一个EAGAIN才以为这次事件处理完毕。当read()返回的读到的数据长度小于请求的数据长度时,就可以肯定此时缓冲中已没有数据了。也就可以以为此事读事件已处理完毕。 

Level Triggered 工做模式 
相反的,以LT方式调用epoll接口的时候,它就至关于一个速度比較快的poll(2),并且无论后面的数据是否被使用,所以他们具备相同的职能。因为即便使用ET模式的epoll,在收到多个chunk的数据的时候仍然会产生多个事件。调用者可以设定EPOLLONESHOT标志,在 epoll_wait(2)收到事件后epoll会与事件关联的文件句柄从epoll描写叙述符中禁止掉。所以当EPOLLONESHOT设定后,使用带有 EPOLL_CTL_MOD标志的epoll_ctl(2)处理文件句柄就成为调用者必须做的事情。 


而后详解ET, LT: 

LT(level triggered)是缺省的工做方式,并且同一时候支持block和no-block socket.在这样的作法中,内核告诉你一个文件描写叙述符是否就绪了,而后你可以对这个就绪的fd进行IO操做。假设你不做不论什么操做,内核仍是会继续通知你的。因此。这样的模式编程出错误可能性要小一点。缓存

传统的select/poll都是这样的模型的表明. 

ET(edge-triggered)是快速工做方式,仅仅支持no-block socket。在这样的模式下,当描写叙述符从未就绪变为就绪时。内核经过epoll告诉你。而后它会若是你知道文件描写叙述符已经就绪,并且不会再为那个文件描写叙述符发送不少其它的就绪通知,直到你作了某些操做致使那个文件描写叙述符再也不为就绪状态了(比方,你在发送,接收或者接收请求,或者发送接收的数据少于必定量时致使了一个EWOULDBLOCK 错误)。服务器

但是请注意。假设一直不正确这个fd做IO操做(从而致使它再次变成未就绪),内核不会发送不少其它的通知(only once),只是在TCP协议中,ET模式的加速效用仍需要不少其它的benchmark确认(这句话不理解)。网络

 

在不少測试中咱们会看到假设没有大量的idle -connection或者dead-connection。epoll的效率并不会比select/poll高很是多,但是当咱们遇到大量的idle- connection(好比WAN环境中存在大量的慢速链接),就会发现epoll的效率大大高于select/poll。

(未測试) 



另外。当使用epoll的ET模型来工做时,当产生了一个EPOLLIN事件后, 
读数据的时候需要考虑的是当recv()返回的大小假设等于请求的大小,那么很是有多是缓冲区还有数据未读完,也意味着该次事件尚未处理完,因此还需要再次读取: 

Java代码   收藏代码
  1. while(rs)  
  2. {  
  3.   buflen = recv(activeevents[i].data.fd, buf, sizeof(buf), 0);  
  4.   if(buflen < 0)  
  5.   {  
  6.     // 由于是非堵塞的模式,因此当errno为EAGAIN时,表示当前缓冲区已无数据可读  
  7.     // 在这里就看成是该次事件已处理处.  
  8.     if(errno == EAGAIN)  
  9.      break;  
  10.     else  
  11.      return;  
  12.    }  
  13.    else if(buflen == 0)  
  14.    {  
  15.      // 这里表示对端的socket已正常关闭.  
  16.    }  
  17.    if(buflen == sizeof(buf)  
  18.      rs = 1;   // 需要再次读取  
  19.    else  
  20.      rs = 0;  
  21. }  



还有,假如发送端流量大于接收端的流量(意思是epoll所在的程序读比转发的socket要快),由于是非堵塞的socket,那么send()函数尽管返回,但实际缓冲区的数据并未真正发给接收端,这样不断的读和发。当缓冲区满后会产生EAGAIN错误(參考man send),同一时候,不理会此次请求发送的数据.因此,需要封装socket_send()的函数用来处理这样的状况,该函数会尽可能将数据写完再返回,返回-1表示出错。在socket_send()内部,当写缓冲已满(send()返回-1,且errno为EAGAIN),那么会等待后再重试.这样的方式并不很是完美,在理论上可能会长时间的堵塞在socket_send()内部,但暂没有更好的办法. 

Java代码   收藏代码
  1. ssize_t socket_send(int sockfd, const char* buffer, size_t buflen)  
  2. {  
  3.   ssize_t tmp;  
  4.   size_t total = buflen;  
  5.   const char *p = buffer;  
  6.   
  7.   while(1)  
  8.   {  
  9.     tmp = send(sockfd, p, total, 0);  
  10.     if(tmp < 0)  
  11.     {  
  12.       // 当send收到信号时,可以继续写,但这里返回-1.  
  13.       if(errno == EINTR)  
  14.         return -1;  
  15.   
  16.       // 当socket是非堵塞时,如返回此错误,表示写缓冲队列已满,  
  17.       // 在这里作延时后再重试.  
  18.       if(errno == EAGAIN)  
  19.       {  
  20.         usleep(1000);  
  21.         continue;  
  22.       }  
  23.   
  24.       return -1;  
  25.     }  
  26.   
  27.     if((size_t)tmp == total)  
  28.       return buflen;  
  29.   
  30.     total -= tmp;  
  31.     p += tmp;  
  32.   }  
  33.   
  34.   return tmp;  
  35. }  

epoll为何这么快 

epoll是多路复用IO(I/O Multiplexing)中的一种方式,但是仅用于linux2.6以上内核,在開始讨论这个问题以前,先来解释一下为何需要多路复用IO. 
以一个生活中的样例来解释. 
若是你在大学中读书,要等待一个朋友来訪,而这个朋友仅仅知道你在A号楼,但是不知道你详细住在哪里,因而大家约好了在A号楼门口见面. 
假设你使用的堵塞IO模型来处理这个问题,那么你就仅仅能一直守候在A号楼门口等待朋友的到来,在这段时间里你不能作别的事情,不难知道,这样的方式的效率是低下的. 
现在时代变化了,開始使用多路复用IO模型来处理这个问题.你告诉你的朋友来了A号楼找楼管大妈,让她告诉你该怎么走.这里的楼管大妈扮演的就是多路复用IO的角色. 
进一步解释select和epoll模型的差别. 
select版大妈作的是例如如下的事情:比方同窗甲的朋友来了,select版大妈比較笨,她带着朋友挨个房间进行查询谁是同窗甲,你等的朋友来了,因而在实际的代码中,select版大妈作的是下面的事情: 
Java代码   收藏代码
  1. int n = select(&readset,NULL,NULL,100);   
  2. for (int i = 0; n > 0; ++i)   
  3. {   
  4.    if (FD_ISSET(fdarray[i], &readset))   
  5.    {   
  6.       do_something(fdarray[i]);   
  7.       --n;   
  8.    }  
  9. }   

epoll版大妈就比較先进了,她记下了同窗甲的信息,比方说他的房间号,那么等同窗甲的朋友到来时,仅仅需要告诉该朋友同窗甲在哪一个房间就能够,不用本身亲自带着人满大楼的找人了.因而epoll版大妈作的事情可以用例如如下的代码表示: 
Java代码   收藏代码
  1. n=epoll_wait(epfd,events,20,500);   
  2. for(i=0;i<n;++i)   
  3. {   
  4.     do_something(events[n]);   
  5. }   
  6. 在epoll中,重要的做用结构epoll_event定义例如如下:   
  7. typedef union epoll_data {   
  8.      void *ptr;   
  9.      int fd;   
  10.      __uint32_t u32;   
  11.      __uint64_t u64;   
  12. } epoll_data_t;   
  13. struct epoll_event {   
  14.                 __uint32_t events;      /* Epoll events */   
  15.                 epoll_data_t data;      /* User data variable */   
  16. };  

可以看到,epoll_data是一个union结构体,它就是epoll版大妈用于保存同窗信息的结构体,它可以保存很是多类型的信息:fd,指针,等等.有了这个结构体,epoll大妈可以不用吹灰之力就可以定位到同窗甲. 
别小看了这些效率的提升,在一个大规模并发的server中,轮询IO是最耗时间的操做之中的一个.再回到那个样例中,假设每到来一个朋友楼管大妈都要全楼的查询同窗,那么处理的效率一定就低下了,过不久楼底就有很多的人了. 
对照最先给出的堵塞IO的处理模型, 可以看到採用了多路复用IO以后, 程序可以自由的进行本身除了IO操做以外的工做, 仅仅有到IO状态发生变化的时候由多路复用IO进行通知, 而后再採取对应的操做, 而不用一直堵塞等待IO状态发生变化了. 
从上面的分析也可以看出,epoll比select的提升其实是一个用空间换时间思想的详细应用. 

多进程server中,epoll的建立应该在建立子进程以后 

看个人測试代码,彷佛应该是在建立子进程以后建立epoll的fd,不然程序将会有问题,试将代码中两个CreateWorker函数的调用位置分别调用,一个在建立epoll fd以前,一个在以后,在调用在建立以前的代码会出问题,在个人机器上(linux内核2.6.26)表现的症状就是所有进程的epoll_wait函数返回0, 而client彷佛被堵塞了: 
server端: 
Java代码   收藏代码
  1. #include <iostream>  
  2. #include <sys/socket.h>  
  3. #include <sys/epoll.h>  
  4. #include <netinet/in.h>  
  5. #include <arpa/inet.h>  
  6. #include <fcntl.h>  
  7. #include <unistd.h>  
  8. #include <stdio.h>  
  9. #include <errno.h>  
  10. #include <sys/types.h>  
  11. #include <sys/wait.h>  
  12.   
  13. using namespace std;  
  14.   
  15. #define MAXLINE 5  
  16. #define OPEN_MAX 100  
  17. #define LISTENQ 20  
  18. #define SERV_PORT 5000  
  19. #define INFTIM 1000  
  20.   
  21. typedef struct task_t  
  22. {  
  23.     int fd;  
  24.     char buffer[100];  
  25.     int n;  
  26. }task_t;  
  27.   
  28. int CreateWorker(int nWorker)  
  29. {  
  30.     if (0 < nWorker)  
  31.     {  
  32.         bool bIsChild;  
  33.         pid_t nPid;  
  34.   
  35.         while (!bIsChild)  
  36.         {  
  37.             if (0 < nWorker)  
  38.             {  
  39.                 nPid = ::fork();  
  40.                 if (nPid > 0)  
  41.                 {  
  42.                     bIsChild = false;  
  43.                     --nWorker;  
  44.                 }  
  45.                 else if (0 == nPid)  
  46.                 {  
  47.                     bIsChild = true;  
  48.                     printf("create worker %d success!\n", ::getpid());  
  49.                 }  
  50.                 else  
  51.                 {  
  52.                     printf("fork error: %s\n", ::strerror(errno));  
  53.                     return -1;  
  54.                 }  
  55.             }  
  56.             else   
  57.             {  
  58.                 int nStatus;  
  59.                 if (-1 == ::wait(&nStatus))  
  60.                 {  
  61.                     ++nWorker;  
  62.                 }  
  63.             }  
  64.         }  
  65.     }  
  66.   
  67.     return 0;  
  68. }  
  69.   
  70. void setnonblocking(int sock)  
  71. {  
  72.     int opts;  
  73.     opts=fcntl(sock,F_GETFL);  
  74.     if(opts<0)  
  75.     {  
  76.         perror("fcntl(sock,GETFL)");  
  77.         exit(1);  
  78.     }  
  79.     opts = opts|O_NONBLOCK;  
  80.     if(fcntl(sock,F_SETFL,opts)<0)  
  81.     {  
  82.         perror("fcntl(sock,SETFL,opts)");  
  83.         exit(1);  
  84.     }     
  85. }  
  86.   
  87. int main()  
  88. {  
  89.     int i, maxi, listenfd, connfd, sockfd,epfd,nfds;  
  90.     ssize_t n;  
  91.     char line[MAXLINE];  
  92.     socklen_t clilen;  
  93.     struct epoll_event ev,events[20];  
  94.   
  95.     struct sockaddr_in clientaddr;  
  96.     struct sockaddr_in serveraddr;  
  97.     listenfd = socket(AF_INET, SOCK_STREAM, 0);  
  98.        bzero(&serveraddr, sizeof(serveraddr));  
  99.     serveraddr.sin_family = AF_INET;  
  100.     char *local_addr="127.0.0.1";  
  101.     inet_aton(local_addr,&(serveraddr.sin_addr));//htons(SERV_PORT);  
  102.     serveraddr.sin_port=htons(SERV_PORT);  
  103.       // 地址重用  
  104.     int nOptVal = 1;  
  105.     socklen_t nOptLen = sizeof(int);  
  106.     if (-1 == ::setsockopt(listenfd, SOL_SOCKET, SO_REUSEADDR, &nOptVal, nOptLen))  
  107.     {  
  108.         return -1;  
  109.     }      
  110.     setnonblocking(listenfd);  
  111.     bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr));  
  112.     listen(listenfd, LISTENQ);      
  113.       
  114.     CreateWorker(5);  
  115.       
  116.     //把socket设置为非堵塞方式  
  117.       
  118.     //生成用于处理accept的epoll专用的文件描写叙述符  
  119.     epfd=epoll_create(256);      
  120.     //设置与要处理的事件相关的文件描写叙述符  
  121.     ev.data.fd=listenfd;  
  122.     //设置要处理的事件类型  
  123.     ev.events=EPOLLIN|EPOLLET;  
  124.     //ev.events=EPOLLIN;  
  125.     //注冊epoll事件  
  126.     epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);  
  127.    
  128.      //CreateWorker(5);  
  129.        
  130.     maxi = 0;  
  131.       
  132.     task_t task;   
  133.     task_t *ptask;  
  134.     while(true)   
  135.     {  
  136.         //等待epoll事件的发生  
  137.         nfds=epoll_wait(epfd,events,20,500);  
  138.         //处理所发生的所有事件       
  139.         for(i=0;i<nfds;++i)  
  140.         {  
  141.             if(events[i].data.fd==listenfd)  
  142.             {                  
  143.                 connfd = accept(listenfd,NULL, NULL);  
  144.                 if(connfd<0){                      
  145.                     printf("connfd<0, listenfd = %d\n", listenfd);  
  146.                     printf("error = %s\n", strerror(errno));  
  147.                     exit(1);  
  148.                 }  
  149.                 setnonblocking(connfd);  
  150.                  
  151.                 //设置用于读操做的文件描写叙述符  
  152.                 memset(&task, 0, sizeof(task));  
  153.                 task.fd = connfd;  
  154.                 ev.data.ptr = &task;  
  155.                 //设置用于注冊的读操做事件  
  156.                 ev.events=EPOLLIN|EPOLLET;  
  157.                 //ev.events=EPOLLIN;  
  158.                 //注冊ev  
  159.                 epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);  
  160.             }  
  161.             else if(events[i].events&EPOLLIN)  
  162.             {  
  163.                 cout << "EPOLLIN" << endl;  
  164.                 ptask = (task_t*)events[i].data.ptr;  
  165.                 sockfd = ptask->fd;  
  166.                   
  167.                 if ( (ptask->n = read(sockfd, ptask->buffer, 100)) < 0) {  
  168.                     if (errno == ECONNRESET) {  
  169.                         close(sockfd);  
  170.                         events[i].data.ptr = NULL;  
  171.                     } else  
  172.                         std::cout<<"readline error"<<std::endl;  
  173.                 } else if (ptask->n == 0) {  
  174.                     close(sockfd);  
  175.                     events[i].data.ptr = NULL;  
  176.                 }  
  177.                 ptask->buffer[ptask->n] = '\0';  
  178.                 cout << "read " << ptask->buffer << endl;  
  179.                   
  180.                 //设置用于写操做的文件描写叙述符                                  
  181.                 ev.data.ptr = ptask;  
  182.                 //设置用于注測的写操做事件  
  183.                 ev.events=EPOLLOUT|EPOLLET;  
  184.                                   
  185.                 //改动sockfd上要处理的事件为EPOLLOUT  
  186.                 epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);  
  187.             }  
  188.             else if(events[i].events&EPOLLOUT)  
  189.             {     
  190.                 cout << "EPOLLOUT" << endl;  
  191.                 ptask = (task_t*)events[i].data.ptr;  
  192.                 sockfd = ptask->fd;  
  193.                   
  194.                 write(sockfd, ptask->buffer, ptask->n);  
  195.                   
  196.                 //设置用于读操做的文件描写叙述符                
  197.                 ev.data.ptr = ptask;  
  198.                   
  199.                 //改动sockfd上要处理的事件为EPOLIN  
  200.                 epoll_ctl(epfd,EPOLL_CTL_DEL,sockfd,&ev);  
  201.                 cout << "write " << ptask->buffer;  
  202.                 memset(ptask, 0, sizeof(*ptask));  
  203.                 close(sockfd);  
  204.             }  
  205.         }  
  206.     }  
  207.     return 0;  
  208. }  

測试client: 
#!/usr/bin/perl 

use strict; 
use Socket; 
use IO::Handle; 

sub echoclient 

    my $host = "127.0.0.1"; 
    my $port = 5000; 

    my $protocol = getprotobyname("TCP"); 
    $host = inet_aton($host); 

    socket(SOCK, AF_INET, SOCK_STREAM, $protocol) or die "socket() failed: $!"; 

    my $dest_addr = sockaddr_in($port, $host); 
    connect(SOCK, $dest_addr) or die "connect() failed: $!"; 

    SOCK->autoflush(1); 

    my $msg_out = "hello world\n"; 
    print "out = ", $msg_out; 
    print SOCK $msg_out; 
    my $msg_in = <SOCK>; 
    print "in = ", $msg_in; 

    close SOCK; 


#&echoclient; 
#exit(0); 

for (my $i = 0; $i < 9999; $i++) 

    echoclient; 

我查看了lighttpd的实现,也是在建立完子进程以后才建立的epoll的fd. 
请问谁知道哪里有解说这个的文档? 
假如fd1是由A进程增长epfd的,而且用的是ET模式,那么增长通知的是进程B,显然B进程不会对fd1进行处理。因此之后fd1的事件再不会通知。因此 通过几回循环以后,所有的fd都没有事件通知了。因此epoll_wait在timeout以后就返回0了。

而在client的结果可想而知。仅仅能是被堵塞。 
也就是说, 这是一种发生在epoll fd上面的相似于"惊群"的现象. 
对于linux socket与epoll配合相关的一些心得记录 

没有多少高深的东西。全当记录,尽管简单。但是没有作过測试仍是挺easy让人糊涂的 

     int nRecvBuf=32*1024;//设置为32K 
setsockopt(s,SOL_SOCKET,SO_RCVBUF,(const char*)&nRecvBuf,sizeof(int)); 
一、经过上面语句可以简单设置缓冲区大小,測试证实:跟epoll结合的时候仅仅有当单次发送的数据全被从缓冲区读完成以后才会再次被触发。屡次发送数据假设没有读取完成当缓冲区未满的时候数据不会丢失,会累加到后面。 
二、 假设缓冲区未满。同一链接屡次发送数据会屡次收到EPOLLIN事件。 
单次发送数据>socket缓冲区大小的数据数据会被堵塞分次发送,因此循环接收可以用ENLIGE错误推断。 
   三、假设缓冲区满。新发送的数据不会触发epoll事件(也无异常)。每次recv都会为缓冲区腾出空间,仅仅有当缓冲区空暇大小能够再次接收数据epollIN事件能够再次被触发 
接收时接收大小为0表示client断开(不可能有0数据包触发EPOLLIN),-1表示异常。针对errorno进行推断可以肯定是合理异常仍是需要终止的异常,>0而不等于缓冲区大小表示单次发送结束。 
   四、 假设中途暂时调整接收缓存区大小。并且在上一次中数据没有全然接收到用户空间,数据不会丢失。会累加在一块儿 

因此总结起来,系统对于数据的完整性仍是作了至关的保正,至于稳定性没有做更深一步的測试 

   新添加: 
   五、假设主accept监听的soctet fd也设置为非堵塞,那么单纯靠epoll事件来驱动的服务器模型会存在问题,并发压力下发现。每次accept仅仅从系统中取得第一个。因此假设恰冯多个链接同一时候触发server fd的EPOLLIN事件,在返回的event数组中体现不出来,会出现丢失事件的现象,因此当用ab等工具简单的压载就会发现每次都会有最后几条信息得不处处理,缘由就在于此,我现在的解决的方法是将server fd的监听去掉。用一个线程堵塞监听。accept成功就处理检測client fd,而后在主线程循环监听client事件。这样epoll在边缘模式下出错的几率就小,測试代表效果明显 
六、对于SIG部分信号仍是要作屏蔽处理,否则对方socket中断等正常事件都会引发整个服务的退出 
七、sendfile(fd, f->SL->sendBuffer.inFd, (off_t *)&f->SL->sendBuffer.offset, size_need);注意sendfile函数的地三个变量是传送地址,偏移量会本身主动添加。不需要手动再次添加。不然就会出现文件传送丢失现象 
八、单线程epoll驱动模型误解:曾经我一直以为单线程是没法处理webserver这种有严重网络延迟的服务,但nginx等优秀server都是机遇事件驱动模型,開始我在些的时候也是操心这些问题,后来測试发现。当client socket设为非堵塞模式的时候,从读取数据到解析http协议,到发送数据均在epoll的驱动下速度很快,没有必要採用多线程,个人单核cpu (奔三)就可以达到10000page/second,这在公网上是远远没法达到的一个数字(网络延迟更为严重)。因此单线程的数据处理能力已经很是高了。就不需要多线程了,所不一样的是你在架构server的时候需要将所有堵塞的部分拆分开来。当epoll通知你可以读取的时候,实际上部分数据已经到了 socket缓冲区。你所读取用的事件是将数据从内核空间复制到用户空间,同理,写也是同样的,因此epoll重要的地方就是将这两个延时的部分作了相似的异步处理,假设不需要处理更为复杂的业务,那单线程足以知足1000M网卡的最高要求,这才是单线程的意义。 
    我曾经构建的webserver就没有理解epoll,採用epoll的边缘触发以后怕事件丢失,或者单线程处理堵塞,因此本身用多线程构建了一个任务调度器。所有收到的事件通通压进任无调度器中,而后多任务处理。我还将read和write分别用两个调度器处理。并打算假设中间需要特殊的耗时的处理就添加一套调度器,用少许线程+epoll的方法来题高性能,后来发现read和write部分调度器是多余的。epoll原本就是一个事件调度器,在后面再次缓存事件分部处理还不如将epoll设为水平模式,因此画蛇添足。但是这个调度起仍是实用处的 
   上面讲到假设中间有耗时的工做。比方数据库读写,外部资源请求(文件,socket)等这些操做就不能堵塞在主线程里面。因此我设计的这个任务调度器就实用了,在epoll能处理的事件驱动部分就借用epoll的。中间部分採用模块化的设计,用函数指针达到面相对象语言中的“托付”的做用,就可以知足不一样的需要将任务(fd标识)增长调度器。让多线程循环运行。假设中间再次遇到堵塞就会再次增长本身定义的堵塞器,检測完毕就增长再次存入调度器,这样就可以将多种复杂的任务划分开来,至关于在处理的中间环节在本身购置一个相似于epoll的事件驱动器 
    九、多系统兼容:我现在却是认为与其构建一个多操做系统都支持的server不如构建特定系统的,假设想迁移再次修改,因为一旦兼顾到多个系统的化会大大添加系统的复杂度,并且不能最优性能,每个系统都有本身的独有的优化选项。因此我认为迁移的工做量远远小于兼顾的工做量 
10模块化编程,尽管用c仍是要讲求一些模块化的设计的。我现在才发现差点儿面相对想的语言所能实现的所有高级特性在c里面差点儿都有相应的解决的方法(临时发现除了操做符重载),所有学太高级面相对象的语言的朋友不放把模式用c来实现,也是一种乐趣,便于维护和本身阅读 
   十一、养成凝视的好习惯 

相关文章
相关标签/搜索