Apache之IO模型

时间 2020-07-23

标签 apache 模型栏目 Apache 繁體版

原文原文链接

基础概念

同步：ajax

所谓同步，就是在发出一个功能调用时，在没有获得结果以前，该调用就不返回。也就是必须一件一件事作,等前一件作完了才能作下一件事。数组

例如普通B/S模式（同步）：提交请求->等待服务器处理->处理完毕返回这个期间客户端浏览器不能干任何事。浏览器

异步：服务器

异步的概念和同步相对。当一个异步过程调用发出后，调用者不能马上获得结果。实际处理这个调用的部件在完成后，经过状态、通知和回调来通知调用者。网络

例如 ajax请求（异步）: 请求经过事件触发->服务器处理（这是浏览器仍然能够做其余事情）->处理完毕数据结构

阻塞：并发

阻塞调用是指调用结果返回以前，当前线程会被挂起（线程进入非可执行状态，在这个状态下，cpu不会给线程分配时间片，即线程暂停运行）。函数只有在获得结果以后才会返回。异步

有人也许会把阻塞调用和同步调用等同起来，实际上他是不一样的。对于同步调用来讲，不少时候当前线程仍是激活的，只是从逻辑上当前函数没有返回而已。例如，咱们在socket中调用recv函数，若是缓冲区中没有数据，这个函数就会一直等待，直到有数据才返回。而此时，当前线程还会继续处理各类各样的消息socket

非阻塞：ide

非阻塞和阻塞的概念相对应，指在不能马上获得结果以前，该函数不会阻塞当前线程，而会马上返回。
对象的阻塞模式和阻塞函数调用
对象是否处于阻塞模式和函数是否是阻塞调用有很强的相关性，可是并非一一对应的。阻塞对象上能够有非阻塞的调用方式，咱们能够经过必定的API去轮询状态，在适当的时候调用阻塞函数，就能够避免阻塞。而对于非阻塞对象，调用特殊的函数也能够进入阻塞调用。函数select就是这样的一个例子。

总结：

1. 同步，就是我调用一个功能，该功能没有结束前，我死等结果。
2. 异步，就是我调用一个功能，不须要知道该功能结果，该功能有结果后通知我（回调通知）
3. 阻塞，就是调用我（函数），我（函数）没有接收完数据或者没有获得结果以前，我不会返回
4. 非阻塞，就是调用我（函数），我（函数）当即返回，经过select通知调用者

同步IO和异步IO的区别就在于：数据拷贝的时候进程是否阻塞！

阻塞IO和非阻塞IO的区别就在于：应用程序的调用是否当即返回！

阻塞和非阻塞是指当进程访问的数据若是还没有就绪,进程是否须要等待,简单说这至关于函数内部的实现区别,也就是未就绪时是直接返回仍是等待就绪；

而同步和异步是指访问数据的机制,同步通常指主动请求并等待I/O操做完毕的方式,当数据就绪后在读写的时候必须阻塞(区别就绪与读写二个阶段,同步的读写必须阻塞),异步则指主动请求数据后即可以继续处理其它任务,随后等待I/O,操做完毕的通知,这可使进程在数据读写时也不阻塞。(等待"通知")。

Linux下的五种I/O模型：

l 阻塞I/O

l 非阻塞I/O

l I/O复用（select、poll、epoll）

l 信号驱动I/O（SIGIO）

l 异步I/O（Posix.1的aio_系列函数）

l 阻塞I/O模型

应用程序调用一个IO函数，致使应用程序阻塞，等待数据准备好。若是数据没有准备好，一直等待。。。。数据准备好了，从内核拷贝到用户空，IO函数返回成功指示。在这种模式下，基本上IO操做都会用一个Work Thread来进行（Java）。

l 非阻塞I/O模型

咱们把一个SOCKET接口设置为非阻塞就是告诉内核，当所请求的I/O操做没法完成时，不要将进程睡眠，而是返回一个错误。这样咱们的I/O操做函数将不断的测试数据是否已经准备好，若是没有准备好，继续测试，直到数据准备好为止。在这个不断测试的过程当中，会大量的占用CPU的时间。

把SOCKET设置为非阻塞模式，即通知系统内核：在调用Sockets API时，不要让线程睡眠，而应该让函数当即返回。在返回时，该函数返回一个错误代码。图所示，一个非阻塞模式套接字屡次调用recv()函数的过程。前三次调用recv()函数时，内核数据尚未准备好。所以，该函数当即返回WSAEWOULDBLOCK错误代码。第四次调用recv()函数时，数据已经准备好，被复制到应用程序的缓冲区中，recv()函数返回成功指示，应用程序开始处理数据。

l I/O复用（select、poll、epoll）模型

I/O复用模型会用到select、poll、epoll函数，这几个函数也会使进程阻塞，可是和阻塞I/O所不一样的是，这两个函数能够同时阻塞多个I/O操做。并且能够同时对多个读操做，多个写操做的I/O函数进行检测，直到有数据可读或可写时，才真正调用I/O操做函数。

l 信号驱动I/O（SIGIO）模型

首先咱们容许SOCKET接口进行信号驱动I/O,并安装一个信号处理函数，进程继续运行并不阻塞。当数据准备好时，进程会收到一个SIGIO信号，能够在信号处理函数中调用I/O操做函数处理数据。

l 异步I/O（Posix.1的aio_系列函数）模型

调用aio_read函数，告诉内核描述字，缓冲区指针，缓冲区大小，文件偏移以及通知的方式，而后当即返回。当内核将数据拷贝到缓冲区后，再通知应用程序。

这个操做和信号驱动的区别就是：异步模式等操做完毕后才通知用户程序而信号驱动模式在数据到来时就通知用户程序。

几种I/O模型的比较

前四种模型的区别是第一阶段，第二阶段基本相同，都是将数据从内核拷贝到调用者的缓冲区。而异步I/O的两个阶段都不一样于前四个模型。

Select、Poll、Epoll介绍

epoll跟select都能提供多路I/O复用的解决方案。在如今的Linux内核里有都可以支持，其中epoll是Linux所特有，而select则应该是POSIX所规定，通常操做系统均有实现

select：

select本质上是经过设置或者检查存放fd标志位的数据结构来进行下一步处理。这样所带来的缺点是：

一、单个进程可监视的fd数量被限制，即能监听端口的大小有限。

通常来讲这个数目和系统内存关系很大，具体数目能够cat /proc/sys/fs/file-max察看。32位机默认是102个。64位机默认是2048.

二、对socket进行扫描时是线性扫描，即采用轮询的方法，效率较低：

当套接字比较多的时候，每次select()都要经过遍历FD_SETSIZE个Socket来完成调度,无论哪一个Socket是活跃的,都遍历一遍。这会浪费不少CPU时间。若是能给套接字注册某个回调函数，当他们活跃时，自动完成相关操做，那就避免了轮询，这正是epoll与kqueue作的。

三、须要维护一个用来存放大量fd的数据结构，这样会使得用户空间和内核空间在传递该结构时复制开销大

poll：

poll本质上和select没有区别，它将用户传入的数组拷贝到内核空间，而后查询每一个fd对应的设备状态，若是设备就绪则在设备等待队列中加入一项并继续遍历，若是遍历完全部fd后没有发现就绪设备，则挂起当前进程，直到设备就绪或者主动超时，被唤醒后它又要再次遍历fd。这个过程经历了屡次无谓的遍历。

它没有最大链接数的限制，缘由是它是基于链表来存储的，可是一样有一个缺点：

一、大量的fd的数组被总体复制于用户态和内核地址空间之间，而无论这样的复制是否是有意义。二、poll还有一个特色是“水平触发”，若是报告了fd后，没有被处理，那么下次poll时会再次报告该fd。

epoll:

epoll支持水平触发和边缘触发，最大的特色在于边缘触发，它只告诉进程哪些fd刚刚变为就需态，而且只会通知一次。还有一个特色是，epoll使用“事件”的就绪通知方式，经过epoll_ctl注册fd，一旦该fd就绪，内核就会采用相似callback的回调机制来激活该fd，epoll_wait即可以收到通知

epoll的优势：

一、没有最大并发链接的限制，能打开的FD的上限远大于1024（1G的内存上能监听约10万个端口）；
二、效率提高，不是轮询的方式，不会随着FD数目的增长效率降低。只有活跃可用的FD才会调用callback函数；
即Epoll最大的优势就在于它只管你“活跃”的链接，而跟链接总数无关，所以在实际的网络环境中，Epoll的效率就会远远高于select和poll。

三、内存拷贝，利用mmap()文件映射内存加速与内核空间的消息传递；即epoll使用mmap减小复制开销。

select、poll、epoll 区别总结：

一、支持一个进程所能打开的最大链接数

Select	单个进程所能打开的最大链接数有FD_SETSIZE宏定义，其大小是32个整数的大小（在32位的机器上，大小就是3232，同理64位机器上FD_SETSIZE为3264），固然咱们能够对进行修改，而后从新编译内核，可是性能可能会受到影响，这须要进一步的测试。
Poll	poll本质上和select没有区别，可是它没有最大链接数的限制，缘由是它是基于链表来存储的
Epoll	虽然链接数有上限，可是很大，1G内存的机器上能够打开10万左右的链接，2G内存的机器能够打开20万左右的链接

二、FD剧增后带来的IO效率问题

Select	由于每次调用时都会对链接进行线性遍历，因此随着FD的增长会形成遍历速度慢的“线性降低性能问题”。
Poll	同上
Epoll	由于epoll内核中实现是根据每一个fd上的callback函数来实现的，只有活跃的socket才会主动调用callback，因此在活跃socket较少的状况下，使用epoll没有前面二者的线性降低的性能问题，可是全部socket都很活跃的状况下，可能会有性能问题。

三、消息传递方式

Select	内核须要将消息传递到用户空间，都须要内核拷贝动做
Poll	同上
Epoll	epoll经过内核和用户空间共享一块内存来实现的。

总结：

综上，在选择select，poll，epoll时要根据具体的使用场合以及这三种方式的自身特色。

一、表面上看epoll的性能最好，可是在链接数少而且链接都十分活跃的状况下，select和poll的性能可能比epoll好，毕竟epoll的通知机制须要不少函数回调。

二、select低效是由于每次它都须要轮询。但低效也是相对的，视状况而定，也可经过良好的设计改善。