linux系统IO分为内核准备数据和将数据从内核拷贝到用户空间两个阶段。linux
这张图大体描述了数据从外部磁盘向运行中程序的内存中移动的过程。编程
如今操做系统都是采用虚拟存储器,那么对32位操做系统而言,它的寻址空间(虚拟储存空间)为4G(2的32次方)。操做系统的核心是内核,独立于普通的应用程序,能够访问受保护的内存空间,也有访问底层硬件设备的全部权限。为了保证用户进程不能直接操做内核,保证内核的安全,操做系统将虚拟空间划分为两个部分,一个部分为内核空间,一部分为用户空间。windows
如何分配这两个空间的大小也是有讲究的,如windows 32位操做系统,默认的用户空间:内核空间的比例是1:1;而在32位Linux系统中的默认比例是3:1(3G用户空间,1G内核空间)。缓存
为了控制进程的执行,内核必需要有能力挂起正在CPU上运行的进程,并恢复之前挂起的某个进程的执行。这种行为成为进程的切换。任何进程都是在操做系统内核的支持下运行的,是与内核紧密相关的。安全
进程切换的过程,会通过下面这些变化:网络
一、保存处理机上下文,包括程序计数器和其余寄存器。数据结构
二、更新PCB信息。多线程
三、将进程的PCB移入相应的队列,如就绪、在某事件阻塞等队列。并发
四、选择另一个进程执行,并更新PCB异步
五、更新内存管理的数据结构。
六、恢复处理机上下文
缓存IO又称称为标准IO,大多数文件系统的默认IO操做都是缓存IO。在Linux的缓存IO机制中,操做系统会将IO的数据缓存在文件系统的页缓存(page cache)。也就是说,数据会先被拷贝到操做系统内核的缓冲区中,而后才会从操做系统内核的缓存区拷贝到应用程序的地址空间中。
这种作法的缺点就是,须要在应用程序地址空间和内核进行屡次拷贝,这些拷贝动做所带来的CPU以及内存开销是很是大的。
同步与异步:描述的是用户线程与内核的交互方式,同步指用户线程发起IO请求后须要等待或者轮询内核IO操做完成后才能继续执行;而异步是指用户线程发起IO请求后仍然继续执行,当内核IO操做完成后会通知用户线程,或者调用用户线程注册的回调函数。
阻塞与非阻塞:描述是用户线程调用内核IO操做的方式,阻塞是指IO操做须要完全完成后才返回到用户空间;而非阻塞是指IO操做被调用后当即返回给用户一个状态值,无需等到IO操做完全完成。
网络IO的本质就是socket的读取,socket在linux系统被抽象为流,IO能够理解为对流的操做。文章开始的时候也提到了,对于一次IO访问(以read为例),数据会先被拷贝到操做系统内核的缓冲区,而后才会从操做系统内核的缓冲区拷贝到应用程序的地址空间中。因此说,当一个read操做发生时,它会经历两个阶段:
第一个阶段:等待数据准备。
第二个阶段:将数据从内核拷贝到进程中
对于socket流而言:
第一步:一般涉及等待网络上的数据分组到达,而后复制到内核的某个缓冲区。
第二步:把数据从内核缓冲区复制到应用进程缓冲区。
固然,若是内核空间的缓冲区中已经有数据了,那么就能够省略第一步。至于为何不能直接让磁盘控制器把数据送到应用程序的地址空间中呢?最简单的一个缘由就是应用程序不能直接操做底层硬件。
网络应用须要处理的无非就是两大类问题,网络IO,数据计算。相对于后者,网络IO的延迟,给应用带来的性能瓶颈大于后者。网络IO的模型大体分为以下五种:
一、阻塞IO
二、非阻塞IO
三、多路复用IO
四、信号驱动IO
五、异步IO
前四种都是同步,只有最后一种是异步IO。下面的模型介绍先以生活中的例子来讲明概念:周末和女朋友去商场逛街,到了晚上饭点,准备吃完饭再去逛街,可是周末人多,新白鹿饭店须要排队,因而有以下几种方案可供选择:
场景描述:
在饭店领完号后,前面还有n桌,不知道何时到咱们,可是又不能离开,由于过号以后必须从新取号。只好在饭店里等,一直等到叫号到咱们才吃完晚饭,而后去逛街。中间等待的时间什么事情都不能作。
网络模型:
在这个模型中,应用程序为了执行这个read操做,会调用相应的一个system call,将系统控制权交给内核,而后就进行等待(这个等待的过程就是被阻塞了),内核开始执行这个system call,执行完毕后会向应用程序返回响应,应用程序获得响应后,就再也不阻塞,并进行后面的工做。
优势:
可以及时返回数据,无延迟。
缺点:
对用户来讲处于等待就要付出性能代价。
场景描述:
等待过程是在太无聊,因而咱们就去逛商场,每隔一段时间就回来询问服务员,叫号是否到咱们了,整个过程来来回回好屡次。这就是非阻塞,可是须要不断的询问。
网络模型:
当用户进程发出read操做时,调用相应的system call,这个system call会当即从内核中返回。可是在返回的这个时间点,内核中的数据可能尚未准备好,也就是说内核只是很快就返回了system call,只有这样才不会阻塞用户进程,对于应用程序,虽然这个IO操做很快就返回了,可是它并不知道这个IO操做是否真的成功了,为了知道IO操做是否成功,应用程序须要主动的循环去问内核。
优势:
可以在等待的时间里去作其余的事情。
缺点:
任务完成的响应延迟增大了,由于每过一段时间去轮询一次read操做,而任务可能在两次轮询之间的任意时间完成,这对致使总体数据吞吐量的下降。
三、IO多路复用
场景描述:
与第二个常常相似,饭店安装了电子屏幕,显示叫号的状态,因此在逛街的时候,就不用去询问服务员,而是看下大屏幕就能够了。(不只仅是咱们不用询问服务员,其余全部的人均可以不用询问服务员)
网络模型:
和第二种同样,调用system call以后,并不等待内核的返回结果而是当即返回。虽然返回结果的调用函数是一个异步的方式,但应用程序会被像select、poll和epoll等具备多个文件描述符的函数阻塞住,一直等到这个system call有结果返回了,再通知应用程序。这种状况,从IO操做的实际效果来看,异步阻塞IO和第一种同步阻塞IO是同样的,应用程序都是一直等到IO操做成功以后(数据已经被写入或者读取),才开始进行下面的工做。不一样点在于异步阻塞IO用一个select函数能够为多个文件描述符提供通知,提供了并发性。举个例子:例若有一万个并发的read请求,可是网络上仍然没有数据,此时这一万个read会同时各自阻塞,如今用select、poll、epoll这样的函数来专门负责阻塞同时监听这一万个请求的状态,一旦有数据到达了就负责通知,这样就将一万个等待和阻塞转化为一个专门的函数来负责与管理。
多路复用技术应用于JAVA NIO的核心类库多路复用器Selector中,目前支持I/O多路复用的系统调用有select、pselect、poll、epoll,在linux编程中有一段时间一直在使用select作轮询和网络事件通知的,可是select支持一个进程打开的socket描述符(FD)收到了限制,通常为1024,因为这一限制,如今使用了epoll代替了select,而epoll支持一个进程打开的FD不受限制。
异步IO与同步IO的区别在于:同步IO是须要应用程序主动地循环去询问是否有数据,而异步IO是经过像select等IO多路复用函数来同时检测多个事件句柄来告知应用程序是否有数据。
了解了前面三种IO模式,在用户进程进行系统调用的时候,他们在等待数据到来的时候,处理的方式是不同的,直接等待、轮询、select或poll轮询,两个阶段过程:
第一个阶段有的阻塞,有的不阻塞,有的能够阻塞又能够不阻塞。
第二个阶段都是阻塞的。
从整个IO过程来看,他们都是顺序执行的,所以能够归为同步模型,都是进程自动等待且向内核检查状态。
高并发的程序通常使用同步非阻塞模式,而不是多线程+同步阻塞模式。要理解这点,先弄明白并发和并行的区别:好比去某部门办事须要依次去几个窗口,办事大厅的人数就是并发数,而窗口的个数就是并行度。就是说并发是同时进行的任务数(如同时服务的http请求),而并行数就是能够同时工做的物理资源数量(如cpu核数)。经过合理调度任务的不一样阶段,并发数能够远远大于并行度。这就是区区几个CPU能够支撑上万个用户并发请求的缘由。在这种高并发的状况下,为每一个用户请求建立一个进程或者线程的开销很是大。而同步非阻塞方式能够把多个IO请求丢到后台去,这样一个CPU就能够服务大量的并发IO请求。
IO多路复用到底是同步阻塞仍是异步阻塞模型,这里来展开说说:
同步是须要主动等待消息通知,而异步则是被动接受消息通知,经过回调、通知、状态等方式来被动获取消息。IO多路复用在阻塞到select阶段时,用户进程是主动等待并调用select函数来获取就绪状态消息,而且其进程状态为阻塞。因此IO多路复用是同步阻塞模式。
四、信号驱动式IO
应用程序提交read请求,调用system call,而后内核开始处理相应的IO操做,而同时,应用程序并不等内核返回响应,就会开始执行其余的处理操做(应用程序没有被IO阻塞),当内核执行完毕,返回read响应,就会产生一个信号或执行一个基于线程的回调函数来完成此次IO处理过程。在这里IO的读写操做是在IO事件发生以后由应用程序来完成。异步IO读写操做老是当即返回,而不论IO是否阻塞,由于真正的读写操做已经有内核掌管。也就是说同步IO模型要求用户代码自行执行IO操做(将数据从内核缓冲区移动用户缓冲区或者相反),而异步操做机制则是由内核来执行IO操做(将数据从内核缓冲区移动用户缓冲区或者相反)。能够这样认为,同步IO向应用程序通知的是IO就绪事件,而异步IO向应用程序通知的是IO完成事件。
五、异步IO
异步IO与上面的异步概念是同样的, 当一个异步过程调用发出后,调用者不能马上获得结果,实际处理这个调用的函数在完成后,经过状态、通知和回调来通知调用者的输入输出操做。异步IO的工做机制是:告知内核启动某个操做,并让内核在整个操做完成后通知咱们,这种模型与信号驱动的IO区别在于,信号驱动IO是由内核通知咱们什么时候能够启动一个IO操做,这个IO操做由用户自定义的信号函数来实现,而异步IO模型是由内核告知咱们IO操做什么时候完成。