Nginx——I/O模型

时间 2019-12-14

标签 nginx 模型栏目 Nginx 繁體版

原文原文链接

I/O介绍

网络IO：本质是socket读取数组

磁盘IO：服务器

每次IO，都要经由两个阶段：网络

　　第一步：将数据从磁盘文件先加载至内核内存空间（缓冲区），等待数据准备完成，时间较长数据结构

　　第二步：将数据从内核缓冲区复制到用户空间的进程的内存中，时间较短多线程

I/O模型

同步/异步：关注的是消息通讯机制架构

　　同步：synchronous，调用者等待被调用者返回消息，才能继续执行并发

　　异步：asynchronous，被调用者经过状态、通知或回调机制主动通知调用者被调用者的运行状态app

阻塞/非阻塞：关注调用者在等待结果返回以前所处的状态异步

　　阻塞：blocking，指IO操做须要完全完成后才返回到用户空间，调用结果返回socket

以前，调用者被挂起

　　非阻塞：nonblocking，指IO操做被调用后当即返回给用户一个状态

同步阻塞IO模型blocking I/O

同步阻塞IO模型是最简单的IO模型，用户线程在内核进行IO操做时被阻塞
用户线程经过系统调用read发起IO读操做，由用户空间转到内核空间。内核等到数据包到达后，而后将接收的数据拷贝到用户空间，完成read操做
用户须要等待read将数据读取到buffer后，才继续处理接收的数据。整个IO请求的过程当中，用户线程是被阻塞的，这致使用户在发起IO请求时，不能作任何事情，对CPU的资源利用率不够

同步非阻塞IO模型nonblocking I/O

用户线程发起IO请求时当即返回。但并未读取到任何数据，用户线程须要不断地发起IO请求，直到数据到达后，才真正读取到数据，继续执行。即 “轮询”机制
整个IO请求的过程当中，虽然用户线程每次发起IO请求后能够当即返回，可是为了等到数据，仍须要不断地轮询、重复请求，消耗了大量的CPU的资源
是比较浪费CPU的方式，通常不多直接使用这种模型，而是在其余IO模型中使用非阻塞IO这一特性

IO多路复用模型multiplexing

多个链接共用一个等待机制，本模型会阻塞进程，可是进程是阻塞在select或者poll这两个系统调用上，而不是阻塞在真正的IO操做上
用户首先将须要进行IO操做添加到select中，继续执行作其余的工做（异步），同时等待select系统调用返回。当数据到达时，IO被激活，select函数返回。用户线程正式发起read请求，读取数据并继续执行。
从流程上来看，使用select函数进行IO请求和同步阻塞模型没有太大的区别，甚至还多了添加监视IO，以及调用select函数的额外操做，效率更差。而且阻塞了两次，可是第一次阻塞在select上时，select能够监控多个IO上是否已有IO操做准备就绪，便可达到在同一个线程内同时处理多个IO请求的目的。而不像阻塞IO那种，一次只能监控一个IO
虽然上述方式容许单线程内处理多个IO请求，可是每一个IO请求的过程仍是阻塞的（在select函数上阻塞），平均时间甚至比同步阻塞IO模型还要长。若是用户线程只是注册本身须要的IO请求，而后去作本身的事情，等到数据到来时再进行处理，则能够提升CPU的利用率
IO多路复用是最常使用的IO模型，可是其异步程度还不够“完全”，由于它使用了会阻塞线程的select系统调用。所以IO多路复用只能称为异步阻塞IO模型，而非真正的异步IO
IO多路复用是指内核一旦发现进程指定的一个或者多个IO条件准备读取，就通知该进程

IO多路复用适用以下场合

当客户端处理多个描述符时（通常是交互式输入和网络套接口），必须使用I/O复用
当一个客户端同时处理多个套接字时，此状况可能的但不多出现
当一个TCP服务器既要处理监听套接口，又要处理已链接套接口，通常也要用到I/O复用
当一个服务器即要处理TCP，又要处理UDP，通常要使用I/O复用
当一个服务器要处理多个服务或多个协议，通常要使用I/O复用

信号驱动IO模型signal-driven I/O

用户进程能够经过sigaction系统调用注册一个信号处理程序，而后主程序能够继续向下执行，当有IO操做准备就绪时，由内核通知触发一个SIGIO信号处理程序执行，而后将用户进程所须要的数据从内核空间拷贝到用户空间
此模型的优点在于等待数据报到达期间进程不被阻塞。用户主程序能够继续执行，只要等待来自信号处理函数的通知
该模型并不经常使用

异步IO模型

异步IO与信号驱动IO最主要的区别是信号驱动IO是由内核通知什么时候能够进行IO操做，而异步IO则是由内核告诉咱们IO操做什么时候完成了。具体来讲就是，信号驱动IO当内核通知触发信号处理程序时，信号处理程序还须要阻塞在从内核空间缓冲区拷贝数据到用户空间缓冲区这个阶段，而异步IO直接是在第二个阶段完成后内核直接通知能够进行后续操做了
相比于IO多路复用模型，异步IO并不十分经常使用，很多高性能并发服务程序使用IO多路复用模型+多线程任务处理的架构基本能够知足需求。何况目前操做系统对异步IO的支持并不是特别完善，更多的是采用IO多路复用模型模拟异步IO的方式（IO事件触发时不直接通知用户线程，而是将数据读写完毕后放到用户指定的缓冲区中）

五种I/O模型比较

I/O模型的具体实现

主要实现方式有如下几种：

Select：Linux实现对应，I/O复用模型，BSD4.2最先实现

Poll：Linux实现，对应I/O复用模型，System V unix最先实现

Epoll：Linux实现，对应I/O复用模型，具备信号驱动I/O模型的某些特性

Kqueue：FreeBSD实现，对应I/O复用模型，具备信号驱动I/O模型某些特性

/dev/poll：SUN的Solaris实现，对应I/O复用模型，具备信号驱动I/O模型的某些特性

Iocp Windows实现，对应第5种（异步I/O）模型

select/poll/epoll的比较：

select

目前几乎在全部的平台上支持，其良好跨平台支持也是它的一个优势，本质上是经过设置或者检查存放fd标志位的数据结构来进行下一步处理

缺点：

单个进程可监视的fd数量被限制，即能监听端口的数量有限/proc/sys/fs/file-max
对socket是线性扫描，即采用轮询的方法，效率较低
select 采起了内存拷贝方法来实现内核将 FD 消息通知给用户空间，这样一个用来存放大量fd的数据结构，这样会使得用户空间和内核空间在传递该结构时复制开销大

poll

本质上和select没有区别，它将用户传入的数组拷贝到内核空间，而后查询每一个fd对应的设备状态
其没有最大链接数的限制，缘由是它是基于链表来存储的
大量的fd的数组被总体复制于用户态和内核地址空间之间，而无论这样的复制是否是有意义
poll特色是“水平触发”，若是报告了fd后，没有被处理，那么下次poll时会再次报告该fd

epoll

在Linux 2.6内核中提出的select和poll的加强版本

优势：

支持水平触发LT和边缘触发ET，最大的特色在于边缘触发，它只告诉进程哪些fd刚刚变为就需态，而且只会通知一次
使用“事件”的就绪通知方式，经过epoll_ctl注册fd，一旦该fd就绪，内核就会采用相似callback的回调机制来激活该fd，epoll_wait即可以收到通知
没有最大并发链接的限制：能打开的FD的上限远大于1024(1G的内存能监听约10万个端口)
效率提高：非轮询的方式，不会随着FD数目的增长而效率降低；只有活跃可用的FD才会调用callback函数，即epoll最大的优势就在于它只管理“活跃”的链接，而跟链接总数无关
内存拷贝，利用mmap(Memory Mapping)加速与内核空间的消息传递；即epoll使用mmap减小复制开销