IO复用： select 和poll 到epoll

时间 2019-11-26

标签 select poll epoll 繁體版

原文原文链接

linux 提供了select、poll和epoll三种接口来实现多路IO复用。下面总结下这三种接口。html

select

该函数容许进程指示内核等待多个事件中的任何一个发生，并只在有一个或多个事件发生或经历一段指定的时间后才唤醒它。linux

函数接口：数组

   1: #include <sys/select.h>

   2: #include <sys/time.h>

3:

   4: int select(int maxfdp1, fd_set *readset, fd_set *writeset, fd_set *exceptset,

   5:            const struct timeval* timeout);

参数说明：安全

maxfdp1 : 指定待测试的描述符个数，它的值为待测试的最大描述符加1，注意为待测试的最大描述符加1，即从0到maxfdp1均将被测试。
readset：既是输入参数，也是输出参数，输入参数时指明读事件关心的描述符集合，输出参数保存准备好读的描述符集合。
writeset: 既是输入参数，也是输出参数，输入参数时指明写事件关心的描述符集合，输出参数保存准备好写的描述符集合。
exceptset: 既是输入参数，也是输出参数，输入参数时指明异常条件关心的描述符集合，输出参数保存有异常发生的描述符集合。
timeout: 等待的时间，结构为
```
   1: struct timeval {
```
```
   2:   long tv_set; // 秒
```
```
   3:   long tv_usec;  // 微秒 10^-6
```
```
   4: }
```
该参数是一个 相对时间，即距离当前的时间，该参数有三种可能：
(1) 永远等待下去，仅有在至少一个描述符准备好的IO时才返回，此时该参数值应该为空指针。
(2) 等待一段时间，在有至少一个描述符准备好IO时返回，或者达到指定的时间，即timeval指定的秒数和微秒数。
(3) 不等待：检查描述符后当即返回，成为轮询，此时timeval的值(其中的秒数和微秒数)都必须为0

返回值：服务器

有就绪的描述符，返回值为就绪的描述符的个数(早期的select若是返回时多个描述符集合的同一位为1，即某个描述符又可读有可写，那么在函数返回值时只计一次，而如今的版本则修正了该问题，按照事件分开计算)，超时返回0，出错则返回-1.网络

select的几点说明：数据结构

select能够关心的描述符有上限限制，一般为1024，该值是因为fd_set集合的大小是由宏FD_SETSIZE限制的，select用户态和内核态交互的fd_set的集合大小就被该参数限制，只有修改该参数，才能够支持更大集合的描述符。而修改该参数就须要从新编译内核。一般可使用多进程的方式来避免这个问题。(注意是关心的描述符个数限制，而不是maxfdp1)。常见的使用slect的多进程模型是这样的：一个进程专门accept，成功后将fd经过unix socket传递给子进程处理，父进程能够根据子进程负载分派。好比能够用1个父进程+4个子进程，就能够承载了过4000个的负载。

注意fd_set*类型的三个参数，是同时做为输入参数和输出参数来使用的，即该参数在返回时被修改了，所以，下次调用select的时候须要从新初始化。其值的读取和设置须要使用提供的访问该结构的方法，分别为：

   1: void FD_ZERO(fd_set *fdset)   //清空集合

   2: void FD_SET(int fd, fd_set *fdset)  // 设置fdset中fd对应的位

   3: void FD_CLR(int fd, fd_set *fdset)  // 清除fdset中fd对应的位

   4: void FD_ISSET(int fd, fd_set* fdset)  // 检测fdset中fd对应的位是否设置。

我的理解： select的工做方式是对maxfdp1之内的描述符都检测，而后内核逐个检测这些描述符，根据fd_set集合中设置的关心的描述符，将对应描述符的状态设置到fd_set中。返回给用户。而一般尤为在网络IO中，大部分描述符是不活跃的，而当描述符集合增大是，该轮询式的开销是线性增加的，会致使开销愈来愈大。

poll

poll起源于SVR3，最初局限于流设备，SVR4取消了这种限制，容许poll工做在任何描述符上。它提供了和select相似的功能。并发

函数接口：app

   1: #include <poll.h>

2:

   3: int poll(struct pollfd* fdarray, unsigned long nfds, int timeout);

4:

   5: struct pollfd {

   6:   int fd;  // 须要检测的文件描述符

   7:   short event; // fd上关心的事件

   8:   short revent;  // fd上发生的时间，即返回值

   9: };

参数说明：less

pollfd：该参数是一个结构体，结构体中包含文件描述符，和文件关心的事件，以及用来保存返回事件的revent。该参数既是输入参数又是输出参数。
nfds：该参数指明数组中元素的个数。Unix98 为该参数定义了名为nfds_t的新的数据类型。

timeout： poll函数返回前的等待时间，单位是毫秒数。可能取值以下：

timeout的值	说明
INFTIM(常被定义为一个负值)	永远等待
0	当即返回，不阻塞进程
>0	等待指定数目的毫秒数

返回值：

发生错误的时候，返回-1，定时器到时以前没有任何描述符就绪，返回0. 不然返回就绪描述符的个数，即revents成员非0的描述符个数。

poll函数的几点说明：

poll使用单独的参数nfds表示关心的描述符的个数，所以再也不有select的数量限制，分配一个pollfd结构的数组并把该数组中元素的数目通知内核成了调用者的责任，内核再也不须要知道相似fd_set的固定大小的数据类型。
pollfd中关心的事件和返回的事件分别由events和revents两个参数表示。所以再也不须要每次都从新设置。而若是咱们再也不关心某个描述符，能够把与它对应的pollfd结构中的fd成员设置成一个负值。poll函数将忽略这样的pollfd结构的events成员，返回时将它的revents成员的值置为0。
poll每次都会对数组中的描述符所有轮询的检测一遍，这点仍是和select相似的。所以还存在当描述符数量较大时的开销问题。

poll的原理：

poll是一个系统调用，其内核入口函数为sys_poll，sys_poll几乎不作任何处理直接调用do_sys_poll，do_sys_poll的执行过程能够分为三个部分：
       1，将用户传入的pollfd数组拷贝到内核空间，由于拷贝操做和数组长度相关，时间上这是一个O（n）操做，这一步的代码在do_sys_poll中包括从函数开始到调用do_poll前的部分。
       2，查询每一个文件描述符对应设备的状态，若是该设备还没有就绪，则在该设备的等待队列中加入一项并继续查询下一设备的状态。查询完全部设备后若是没有一个设备就绪，这时则须要挂起当前进程等待，直到设备就绪或者超时，挂起操做是经过调用schedule_timeout执行的。设备就绪后进程被通知继续运行，这时再次遍历全部设备，以查找就绪设备。这一步由于两次遍历全部设备，时间复杂度也是O（n），这里面不包括等待时间。相关代码在do_poll函数中。
       3，将得到的数据传送到用户空间并执行释放内存和剥离等待队列等善后工做，向用户空间拷贝数据与剥离等待队列等操做的的时间复杂度一样是O（n），具体代码包括do_sys_poll函数中调用do_poll后到结束的部分。

epoll

epoll是linux下多路IO复用select/poll的加强版本，它能显著提供程序在大量并发链接中只有少许活跃状况下的系统CPU利用率。

函数结构:

它有三个主要结构，分别为epoll_create，epoll_ctl，epoll_wait。

epoll_create

   1: #include <sys/epoll.h>

2:

   3: int epoll_create(int size)

该函数用于建立一个epoll的文件描述符，

参数说明：

建立一个epoll的句柄，size用来告诉内核这个监听的数目一共有多大(能够不是监听的总数，该参数用来提示内存分配空间的)。这个参数不一样于select()中的第一个参数，给出最大监听的fd+1的值。须要注意的是，当建立好epoll句柄后，它就是会占用一个fd值，在linux下若是查看/proc/进程id/fd/，是可以看到这个fd的，因此在使用完epoll后，必须调用close()关闭，不然可能致使fd被耗尽。

返回值：

成功的返回文件描述符，出错返回-1，并设置errno

错误类型：

EINVAL： size不是正数

ENFILE：文件描述符达到系统的文件描述符限制

ENOMEM：没有足够的内存建立内核对象。

epoll_ctl

   1: #include <sys/epoll.h>

2:

   3: int epoll_ctl(int epfd, int op, int fd, struct epoll_event* event);

4:

   5: typedef union epoll_data {

   6:   void * ptr;

   7:   int fd;

   8:   _uint32_t u32;

   9:   _uint64_t u64;

  10: }epoll_data_t;

11:

  12: struct epoll_event {

  13:   _uint32 events;  // epoll事件

  14:   epoll_data_t data;  // 用户变量。

  15: };

函数说明：

epoll的事件注册函数，它不一样与select()是在监听事件时告诉内核要监听什么类型的事件，而是在这里先注册要监听的事件类型。第一个参数是epoll_create()的返回值，第二个参数表示动做，用三个宏来表示：
EPOLL_CTL_ADD：注册新的fd到epfd中；
EPOLL_CTL_MOD：修改已经注册的fd的监听事件；
EPOLL_CTL_DEL：从epfd中删除一个fd；

events能够是如下几个宏的集合：
EPOLLIN ：表示对应的文件描述符能够读（包括对端SOCKET正常关闭）；
EPOLLOUT：表示对应的文件描述符能够写；
EPOLLPRI：表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）；
EPOLLERR：表示对应的文件描述符发生错误；
EPOLLHUP：表示对应的文件描述符被挂断；
EPOLLET：将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)来讲的。
EPOLLONESHOT：只监听一次事件，当监听完此次事件以后，若是还须要继续监听这个socket的话，须要再次把这个socket加入到EPOLL队列里

返回值：

成功返回0，失败返回-1，并设置errno

错误类型：

EBADF： epfd不是一个有效的描述符。

EEXIST： op为EPOLL_CTL_ADD，而且提供的描述符fd已经在epfd中。此时应该用EPOLL_CTL_MOD

EINVAL： epfd不是一个epoll文件描述符，或者fd和epfd同样，挥着请求的操做op不是一个有效的操做。

ENOENT： op是EPOLL_CTL_MOD或者EPOLL_CTL_DEL，而且fd不在epfd中。

ENOMEM: 没有足够的内存区执行相应的op操做。

EPERM： epoll不支持目标的文件描述符fd

epoll_wait

   1: #include <sys/epoll.h>

2:

   3: int epoll_wait(int epfd, struct epoll_event* events, int maxevents, int timeout);

函数说明：

epfd是经过epoll_create常见的描述符，events是接受返回事件的结构，maxevents是数组的最大值，timeout是设置超时时间的，单位是毫秒。

等待事件的产生，相似于select()调用。参数events用来从内核获得事件的集合，maxevents告以内核这个events有多大，这个 maxevents的值必须大于0，maxevents 是epoll_wait能够处理的链接事件的最大限度值，这个值通常要小于或等于epoll_create的那个size，固然若是设置成比size还大的话也无所谓，size是epoll总体能够监听的最大fd数量。maxevents的意义是防止epoll的API在填写你传进去的指针events的时候，超过指针指向的内存的大小从而致使内存溢出。参数timeout是超时时间（毫秒，0会当即返回，-1将不肯定，也有说法说是永久阻塞）。该函数返回须要处理的事件数目，如返回0表示已超时。

当成功返回时，每一个epoll_event结构中将包含epoll_ct中的用户数据。

返回值：

成功返回准备好的描述符数，超时仍没有描述符准备好返回0，出错返回-1，并设置errno

错误类型：

EBADF： epfd不是一个有效的文件描述符

EFAULT：指向events的内存没有写权限

EINTR：调用在IO 准备好和超时以前被信号中断

EINVAL： epfd不是有个epoll文件描述符，或者maxevents小于等于0

epoll的几点说明：

epoll一样只告知那些就绪的文件描述符，并且当咱们调用epoll_wait()得到就绪文件描述符时，返回的不是实际的描述符，而是一个表明就绪描述符数量的值，你只须要去epoll指定的一个数组中依次取得相应数量的文件描述符便可，这里也使用了内存映射（mmap）技术，这样便完全省掉了这些文件描述符在系统调用时复制的开销。
另外一个本质的改进在于epoll采用基于事件的就绪通知方式。在select/poll中，进程只有在调用必定的方法后，内核才对全部监视的文件描述符进行扫描，而epoll事先经过epoll_ctl()来注册一个文件描述符，一旦基于某个文件描述符就绪时，内核会采用相似callback的回调机制，迅速激活这个文件描述符，当进程调用epoll_wait()时便获得通知。

epoll的ET和LT

ET模式仅当状态发生变化的时候才得到通知(只告诉进程哪些文件描述符刚刚变为就绪状态，),这里所谓的状态的变化并不包括缓冲区中还有未处理的数据,也就是说,若是要采用ET模式,须要一直read/write直到出错为止,不少人反映为何采用ET模式只接收了一部分数据就再也得不到通知了,大多由于这样;而LT模式是只要有数据没有处理就会一直通知下去的.

EPOLL 和poll、select的区别

接下来分析epoll，与poll/select不一样，epoll再也不是一个单独的系统调用，而是由epoll_create/epoll_ctl/epoll_wait三个系统调用组成，后面将会看到这样作的好处。
       先来看sys_epoll_create(epoll_create对应的内核函数），这个函数主要是作一些准备工做，好比建立数据结构，初始化数据并最终返回一个文件描述符（表示新建立的虚拟epoll文件），这个操做能够认为是一个固定时间的操做。
        epoll是作为一个虚拟文件系统来实现的，这样作至少有如下两个好处：
        1，能够在内核里维护一些信息，这些信息在屡次epoll_wait间是保持的，好比全部受监控的文件描述符。
        2， epoll自己也能够被poll/epoll;
       具体epoll的虚拟文件系统的实现和性能分析无关，再也不赘述。
       在sys_epoll_create中还能看到一个细节，就是epoll_create的参数size在现阶段是没有意义的，只要大于零就行。
       接着是sys_epoll_ctl(epoll_ctl对应的内核函数），须要明确的是每次调用sys_epoll_ctl只处理一个文件描述符，这里主要描述当op为EPOLL_CTL_ADD时的执行过程，sys_epoll_ctl作一些安全性检查后进入ep_insert，ep_insert里将 ep_poll_callback作为回掉函数加入设备的等待队列（假定这时设备还没有就绪），因为每次poll_ctl只操做一个文件描述符，所以也能够认为这是一个O(1)操做
        ep_poll_callback函数很关键，它在所等待的设备就绪后被系统回掉，执行两个操做：
       1，将就绪设备加入就绪队列，这一步避免了像poll那样在设备就绪后再次轮询全部设备找就绪者，下降了时间复杂度，由O（n）到O（1）;
       2，唤醒虚拟的epoll文件;
       最后是sys_epoll_wait，这里实际执行操做的是ep_poll函数。该函数等待将进程自身插入虚拟epoll文件的等待队列，直到被唤醒（见上面ep_poll_callback函数描述），最后执行ep_events_transfer将结果拷贝到用户空间。因为只拷贝就绪设备信息，因此这里的拷贝是一个O(1）操做。
       还有一个让人关心的问题就是epoll对EPOLLET的处理，即边沿触发的处理，粗略看代码就是把一部分水平触发模式下内核作的工做交给用户来处理，直觉上不会对性能有太大影响，感兴趣的朋友欢迎讨论。
POLL/EPOLL对比：
       表面上poll的过程能够看做是由一次epoll_create/若干次epoll_ctl/一次epoll_wait/一次close等系统调用构成，实际上epoll将poll分红若干部分实现的缘由正是由于服务器软件中使用poll的特色（好比Web服务器）：
       1，须要同时poll大量文件描述符;
       2，每次poll完成后就绪的文件描述符只占全部被poll的描述符的不多一部分。
       3，先后屡次poll调用对文件描述符数组（ufds）的修改只是很小;
       传统的poll函数至关于每次调用都重起炉灶，从用户空间完整读入ufds，完成后再次彻底拷贝到用户空间，另外每次poll都须要对全部设备作至少作一次加入和删除等待队列操做，这些都是低效的缘由。
        epoll将以上状况都细化考虑，不须要每次都完整读入输出ufds，只需使用epoll_ctl调整其中一小部分，不须要每次epoll_wait都执行一次加入删除等待队列操做，另外改进后的机制使的没必要在某个设备就绪后搜索整个设备数组进行查找，这些都能提升效率。另外最明显的一点，从用户的使用来讲，使用epoll没必要每次都轮询全部返回结果已找出其中的就绪部分，O（n）变O（1），对性能也提升很多。
       此外这里还发现一点，是否是将epoll_ctl改为一次能够处理多个fd（像semctl那样）会提升些许性能呢？特别是在假设系统调用比较耗时的基础上。不过关于系统调用的耗时问题还会在之后分析。

refer：http://kaiyuan.blog.51cto.com/930309/341121

http://www.360doc.com/content/09/0727/15/1894_4486873.shtml

http://blog.csdn.net/ljx0305/article/details/4065058

http://blog.endlesscode.com/2010/03/27/select-poll-epoll-intro/