linux 提供了select、poll和epoll三种接口来实现多路IO复用。下面总结下这三种接口。html
该函数容许进程指示内核等待多个事件中的任何一个发生,并只在有一个或多个事件发生或经历一段指定的时间后才唤醒它。linux
函数接口:数组
1: #include <sys/select.h>
2: #include <sys/time.h>
3:
4: int select(int maxfdp1, fd_set *readset, fd_set *writeset, fd_set *exceptset,
5: const struct timeval* timeout);
参数说明:安全
1: struct timeval {
2: long tv_set; // 秒
3: long tv_usec; // 微秒 10^-6
4: }
返回值:服务器
有就绪的描述符,返回值为就绪的描述符的个数(早期的select若是返回时多个描述符集合的同一位为1,即某个描述符又可读有可写,那么在函数返回值时只计一次,而如今的版本则修正了该问题,按照事件分开计算),超时返回0, 出错则返回-1.网络
select的几点说明:数据结构
1: void FD_ZERO(fd_set *fdset) //清空集合
2: void FD_SET(int fd, fd_set *fdset) // 设置fdset中fd对应的位
3: void FD_CLR(int fd, fd_set *fdset) // 清除fdset中fd对应的位
4: void FD_ISSET(int fd, fd_set* fdset) // 检测fdset中fd对应的位是否设置。
poll起源于SVR3, 最初局限于流设备,SVR4取消了这种限制,容许poll工做在任何描述符上。它提供了和select相似的功能。并发
函数接口:app
1: #include <poll.h>
2:
3: int poll(struct pollfd* fdarray, unsigned long nfds, int timeout);
4:
5: struct pollfd {
6: int fd; // 须要检测的文件描述符
7: short event; // fd上关心的事件
8: short revent; // fd上发生的时间,即返回值
9: };
参数说明:less
timeout的值 | 说明 |
INFTIM(常被定义为一个负值) | 永远等待 |
0 | 当即返回,不阻塞进程 |
>0 | 等待指定数目的毫秒数 |
返回值:
发生错误的时候,返回-1, 定时器到时以前没有任何描述符就绪,返回0. 不然返回就绪描述符的个数,即revents成员非0的描述符个数。
poll函数的几点说明:
poll的原理:
poll是一个系统调用,其内核入口函数为sys_poll,sys_poll几乎不作任何处理直接调用do_sys_poll,do_sys_poll的执行过程能够分为三个部分:
1,将用户传入的pollfd数组拷贝到内核空间,由于拷贝操做和数组长度相关,时间上这是一个O(n)操做,这一步的代码在do_sys_poll中包括从函数开始到调用do_poll前的部分。
2,查询每一个文件描述符对应设备的状态,若是该设备还没有就绪,则在该设备的等待队列中加入一项并继续查询下一设备的状态。查询完全部设备后若是没有一个设备就绪,这时则须要挂起当前进程等待,直到设备就绪或者超时,挂起操做是经过调用schedule_timeout执行的。设备就绪后进程被通知继续运行,这时再次遍历全部设备,以查找就绪设备。这一步由于两次遍历全部设备,时间复杂度也是O(n),这里面不包括等待时间。相关代码在do_poll函数中。
3,将得到的数据传送到用户空间并执行释放内存和剥离等待队列等善后工做,向用户空间拷贝数据与剥离等待队列等操做的的时间复杂度一样是O(n),具体代码包括do_sys_poll函数中调用do_poll后到结束的部分。
epoll是linux下多路IO复用select/poll的加强版本,它能显著提供程序在大量并发链接中只有少许活跃状况下的系统CPU利用率。
函数结构:
它有三个主要结构,分别为epoll_create,epoll_ctl,epoll_wait。
1: #include <sys/epoll.h>
2:
3: int epoll_create(int size)
该函数用于建立一个epoll的文件描述符,
参数说明:
建立一个epoll的句柄,size用来告诉内核这个监听的数目一共有多大(能够不是监听的总数,该参数用来提示内存分配空间的)。这个参数不一样于select()中的第一个参数,给出最大监听的fd+1的值。须要注意的是,当建立好epoll句柄后,它就是会占用一个fd值,在linux下若是查看/proc/进程id/fd/,是可以看到这个fd的,因此在使用完epoll后,必须调用close()关闭,不然可能致使fd被耗尽。
返回值:
成功的返回文件描述符,出错返回-1,并设置errno
错误类型:
EINVAL: size不是正数
ENFILE: 文件描述符达到系统的文件描述符限制
ENOMEM: 没有足够的内存建立内核对象。
1: #include <sys/epoll.h>
2:
3: int epoll_ctl(int epfd, int op, int fd, struct epoll_event* event);
4:
5: typedef union epoll_data {
6: void * ptr;
7: int fd;
8: _uint32_t u32;
9: _uint64_t u64;
10: }epoll_data_t;
11:
12: struct epoll_event {
13: _uint32 events; // epoll事件
14: epoll_data_t data; // 用户变量。
15: };
函数说明:
epoll的事件注册函数,它不一样与select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。第一个参数是epoll_create()的返回值,第二个参数表示动做,用三个宏来表示:
EPOLL_CTL_ADD:注册新的fd到epfd中;
EPOLL_CTL_MOD:修改已经注册的fd的监听事件;
EPOLL_CTL_DEL:从epfd中删除一个fd;
events能够是如下几个宏的集合:
EPOLLIN :表示对应的文件描述符能够读(包括对端SOCKET正常关闭);
EPOLLOUT:表示对应的文件描述符能够写;
EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
EPOLLERR:表示对应的文件描述符发生错误;
EPOLLHUP:表示对应的文件描述符被挂断;
EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来讲的。
EPOLLONESHOT:只监听一次事件,当监听完此次事件以后,若是还须要继续监听这个socket的话,须要再次把这个socket加入到EPOLL队列里
返回值:
成功返回0, 失败返回-1, 并设置errno
错误类型:
EBADF: epfd不是一个有效的描述符。
EEXIST: op为EPOLL_CTL_ADD,而且提供的描述符fd已经在epfd中。此时应该用EPOLL_CTL_MOD
EINVAL: epfd不是一个epoll文件描述符,或者fd和epfd同样,挥着请求的操做op不是一个有效的操做。
ENOENT: op是EPOLL_CTL_MOD或者EPOLL_CTL_DEL,而且fd不在epfd中。
ENOMEM: 没有足够的内存区执行相应的op操做。
EPERM: epoll不支持目标的文件描述符fd
1: #include <sys/epoll.h>
2:
3: int epoll_wait(int epfd, struct epoll_event* events, int maxevents, int timeout);
函数说明:
epfd是经过epoll_create常见的描述符,events是接受返回事件的结构,maxevents是数组的最大值,timeout是设置超时时间的,单位是毫秒。
等待事件的产生,相似于select()调用。参数events用来从内核获得事件的集合,maxevents告以内核这个events有多大,这个 maxevents的值必须大于0,maxevents 是epoll_wait能够处理的链接事件的最大限度值,这个值通常要小于或等于epoll_create的那个size,固然若是设置成比size还大 的话也无所谓,size是epoll总体能够监听的最大fd数量。maxevents的意义是防止epoll的API在填写你传进去的指针events的 时候,超过指针指向的内存的大小从而致使内存溢出。参数timeout是超时时间(毫秒,0会当即返回,-1将不肯定,也有说法说是永久阻塞)。该函数返回须要处理的事件数目,如返回0表示已超时。
当成功返回时,每一个epoll_event结构中将包含epoll_ct中的用户数据。
返回值:
成功返回准备好的描述符数,超时仍没有描述符准备好返回0, 出错返回-1,并设置errno
错误类型:
EBADF: epfd不是一个有效的文件描述符
EFAULT: 指向events的内存没有写权限
EINTR: 调用在IO 准备好和超时以前被信号中断
EINVAL: epfd不是有个epoll文件描述符,或者maxevents小于等于0
epoll的几点说明:
ET模式仅当状态发生变化的时候才得到通知(只告诉进程哪些文件描述符刚刚变为就绪状态,),这里所谓的状态的变化并不包括缓冲区中还有未处理的数据,也就是说,若是要采用ET模式,须要一直read/write直到出错为止,不少人反映为何采用ET模式只接收了一部分数据就再也得不到通知了,大多由于这样;而LT模式是只要有数据没有处理就会一直通知下去的.
接下来分析epoll,与poll/select不一样,epoll再也不是一个单独的系统调用,而是由epoll_create/epoll_ctl/epoll_wait三个系统调用组成,后面将会看到这样作的好处。
先来看sys_epoll_create(epoll_create对应的内核函数),这个函数主要是作一些准备工做,好比建立数据结构,初始化数据并最终返回一个文件描述符(表示新建立的虚拟epoll文件),这个操做能够认为是一个固定时间的操做。
epoll是作为一个虚拟文件系统来实现的,这样作至少有如下两个好处:
1,能够在内核里维护一些信息,这些信息在屡次epoll_wait间是保持的,好比全部受监控的文件描述符。
2, epoll自己也能够被poll/epoll;
具体epoll的虚拟文件系统的实现和性能分析无关,再也不赘述。
在sys_epoll_create中还能看到一个细节,就是epoll_create的参数size在现阶段是没有意义的,只要大于零就行。
接着是sys_epoll_ctl(epoll_ctl对应的内核函数),须要明确的是每次调用sys_epoll_ctl只处理一个文件描述符,这里主要描述当op为EPOLL_CTL_ADD时的执行过程,sys_epoll_ctl作一些安全性检查后进入ep_insert,ep_insert里将 ep_poll_callback作为回掉函数加入设备的等待队列(假定这时设备还没有就绪),因为每次poll_ctl只操做一个文件描述符,所以也能够认为这是一个O(1)操做
ep_poll_callback函数很关键,它在所等待的设备就绪后被系统回掉,执行两个操做:
1,将就绪设备加入就绪队列,这一步避免了像poll那样在设备就绪后再次轮询全部设备找就绪者,下降了时间复杂度,由O(n)到O(1);
2,唤醒虚拟的epoll文件;
最后是sys_epoll_wait,这里实际执行操做的是ep_poll函数。该函数等待将进程自身插入虚拟epoll文件的等待队列,直到被唤醒(见上面ep_poll_callback函数描述),最后执行ep_events_transfer将结果拷贝到用户空间。因为只拷贝就绪设备信息,因此这里的拷贝是一个O(1)操做。
还有一个让人关心的问题就是epoll对EPOLLET的处理,即边沿触发的处理,粗略看代码就是把一部分水平触发模式下内核作的工做交给用户来处理,直觉上不会对性能有太大影响,感兴趣的朋友欢迎讨论。
POLL/EPOLL对比:
表面上poll的过程能够看做是由一次epoll_create/若干次epoll_ctl/一次epoll_wait/一次close等系统调用构成,实际上epoll将poll分红若干部分实现的缘由正是由于服务器软件中使用poll的特色(好比Web服务器):
1,须要同时poll大量文件描述符;
2,每次poll完成后就绪的文件描述符只占全部被poll的描述符的不多一部分。
3,先后屡次poll调用对文件描述符数组(ufds)的修改只是很小;
传统的poll函数至关于每次调用都重起炉灶,从用户空间完整读入ufds,完成后再次彻底拷贝到用户空间,另外每次poll都须要对全部设备作至少作一次加入和删除等待队列操做,这些都是低效的缘由。
epoll将以上状况都细化考虑,不须要每次都完整读入输出ufds,只需使用epoll_ctl调整其中一小部分,不须要每次epoll_wait都执行一次加入删除等待队列操做,另外改进后的机制使的没必要在某个设备就绪后搜索整个设备数组进行查找,这些都能提升效率。另外最明显的一点,从用户的使用来讲,使用epoll没必要每次都轮询全部返回结果已找出其中的就绪部分,O(n)变O(1),对性能也提升很多。
此外这里还发现一点,是否是将epoll_ctl改为一次能够处理多个fd(像semctl那样)会提升些许性能呢?特别是在假设系统调用比较耗时的基础上。不过关于系统调用的耗时问题还会在之后分析。
refer:http://kaiyuan.blog.51cto.com/930309/341121
http://www.360doc.com/content/09/0727/15/1894_4486873.shtml
http://blog.csdn.net/ljx0305/article/details/4065058
http://blog.endlesscode.com/2010/03/27/select-poll-epoll-intro/