IO是输入input输出output的首字母缩写形式,直观意思是计算机输入输出,它描述的是计算机的数据流动的过程,所以IO第一大特征是有数据的流动;另外,对于一次IO,它到底是输入仍是输出,是针对不一样的主体而言的,不一样的主体有不一样的描述。可是对于一个Java程序员来讲,咱们通常把程序当作IO的主体,也能够理解为内存中的进程。那么对于IO的整个过程大致上分为2个部分,第一个部分为IO的调用,第二个过程为IO的执行。IO的调用指的就是系统调用,IO的执行指的是在内核中相关数据的处理过程,这个过程是由操做系统完成的,与程序员无关。java
阻塞IO:请求进程一直等待IO准备就绪。
非阻塞IO:请求进程不会等待IO准备就绪。
同步IO操做:致使请求进程阻塞,直到IO操做完成。
异步IO操做:不致使请求进程阻塞。linux
这里的程序就是一次完整的IO,一个函数为IO在执行过程当中的一个独立的小片断。程序员
咱们知道在Linux操做系统中内存分为内核空间和用户空间,而全部的IO操做都得得到内核的支持,可是因为用户态的进程没法直接进行内核的IO操做,因此内核空间提供了系统调用,使得处于用户态的进程能够间接执行IO操做,IO调用的目的是将进程的内部数据迁移到外部即输出,或将外部数据迁移到进程内部即输入。而在这里讨论的数据一般是socket进程内部的数据。windows
在上图中,每个客户端会与服务端创建一次socket链接,而服务端获取链接后,对于全部的数据的读取都得通过操做系统的内核,经过系统调用内核将数据复制到用户进程的缓冲区,而后才完成客户端的进程与客户端的交互。那么根据系统调用的方式的不一样分为阻塞和非阻塞,根据系统处理应用进程的方式不一样分为同步和异步。网络
每一次客户端产生的socket链接其实是一个文件描述符fd,而每个用户进程读取的实际上也是一个个文件描述符fd,在该时期的系统调用函数会等待网络请求的数据的到达和数据从内核空间复制到用户进程空间,也就是说,不管是第一阶段的IO调用仍是第二阶段的IO执行都会阻塞,那么就像图中所画的同样,对于多个客户端链接,只能开辟多个线程来处理。dom
对于阻塞IO模型来讲最大的问题就体如今阻塞2字上,那么为了解决这个问题,系统的内核所以发生了改变。在内核中socket支持了非阻塞状态。既然这个socket是不阻塞的了,那么就可使用一个进程处理客户端的链接,该进程内部写一个死循环,不断的询问每个链接的网络数据是否已经到达。此时轮询发生在用户空间,可是该进程依然须要本身处理全部的链接,因此该时期为同步非阻塞IO时期,也即为NIO。异步
在非阻塞IO模型中,虽然解决了IO调用阻塞的问题,可是产生了新的问题,若是如今有1万个链接,那么用户线程会调用1万次的系统调用read来进行处理,在用户空间这种开销太大,那么如今须要解决这个问题,思路就是让用户进程减小系统调用,可是用户本身是实现不了的,因此这就致使了内核发生了进一步变化。在内核空间中帮助用户进程遍历全部的文件描述符,将数据准备好的文件描述符返回给用户进程。该方式是同步阻塞IO,由于在第一阶段的IO调用会阻塞进程。jvm
为了让内核帮助用户进程完成文件描述符的遍历,内核增长了系统调用select/poll(select与poll本质上没有什么不一样,就是poll减小了文件描述符的个数限制),如今用户进程只须要调用select系统调用函数,而且将文件描述符所有传递给select就可让内核帮助用户进程完成全部的查询,而后将数据准备好的文件描述符再返回给用户进程,最后用户进程依次调用其余系统调用函数完成IO的执行过程。socket
在select实现的多路复用中依然存在一些问题。函数
一、用户进程须要传递全部的文件描述符,而后内核将数据准备好的文件描述符再次传递回去,这种数据的拷贝下降了IO的速度。 二、内核依然会执行复杂度为O(n)的主动遍历操做。
对于第一个问题,提出了一个共享空间的概念,这个空间为用户进程和内核进程所共享,而且提供了mmap系统调用,实现用户空间和内核空间到共享空间的映射,这样用户进程就能够将1万个文件描述符写到共享空间中的红黑树上,而后内核将准备就绪的文件描述符写入共享空间的链表中,而用户进程发现链表中有数据了就直接读取而后调用read执行IO便可。
对于第二个问题,内核引入了事件驱动机制(相似于中断),再也不主动遍历全部的文件描述符,而是经过事件驱动的方式主动通知内核该文件描述符的数据准备完毕了,而后内核就将其写入链表中便可。
对于epoll来讲在第一阶段的epoll_wait依然是阻塞的,故也是同步阻塞式IO。
在IO执行的数据准备阶段,不会阻塞用户进程。当用户进程须要等待数据的时候,会向内核发送一个信号,告诉内核须要数据,而后用户进程就继续作别的事情去了,而当内核中的数据准备好以后,内核立马发给用户进程一个信号,用户进程收到信号以后,立马调用recvfrom,去查收数据。该IO模型使用的较少。
应用进程经过 aio_read 告知内核启动某个操做,而且在整个操做完成以后再通知应用进程,包括把数据从内核空间拷贝到用户空间。信号驱动 IO 是内核通知咱们什么时候能够启动一个 IO 操做,而异步 IO 模型是由内核通知咱们 IO 操做什么时候完成。是真正意义上的无阻塞的IO操做,可是目前只有windows支持AIO,linux内核暂时不支持。
前四种模型的主要区别于第一阶段,由于他们的第二阶段都是同样的:在数据从内核拷贝到应用进程的缓冲区期间,进程都会阻塞。相反,异步 IO 模型在这两个阶段都不会阻塞,从而不一样于其余四种模型。
直接内存并非虚拟机运行时数据区的一部分,也不是Java 虚拟机规范中农定义的内存区域。直接内存申请空间耗费更高的性能,直接内存IO读写的性能要优于普通的堆内存,对于java程序来讲,系统内核读取堆类的对象须要根据代码段计算其偏移量来获取对象地址,效率较慢,不太适合网络IO的场景,对于直接内存来讲更加适合IO操做,内核读取存放在直接内存中的对象较为方便,由于其地址就是裸露的进程虚拟地址,不须要jvm翻译。那么就可使用mmap开辟一块直接内存mapbuffer和内核空间共享,而且该直接内存能够直接映射到磁盘上的文件,这样就能够经过调用本地的put而不用调用系统调用write就能够将数据直接写入磁盘,RandomAccessFile类就是经过开辟mapbuffer实现的读写磁盘。
以消息队列Kafka来讲,有生产者和消费者,对于生产者,从网络发来一个消息msg而且被拷贝到内核缓冲区,该消息经过Kafka调用recvfrom将内核中的msg读到队列中,而后加上消息头head,再将该消息写入磁盘。若是没有mmap的话,就会调用一个write系统调用将该消息写入内核缓冲区,而后内核将该消息再写入磁盘。在此过程当中出现一次80中断和2次拷贝。但实际上Kafka使用的是mmap开辟了直接内存到磁盘的映射,直接使用put将消息写入磁盘。实际上也是经过内核访问该共享区域将该消息写入的磁盘。同时在Kafka中有一个概念叫segment,通常为1G大小。它会充分利用磁盘的顺序性,只追加数据,不修改数据。而mmap会直接开辟1G的直接内存,而且直接与segment造成映射关系,在segment满了的时候再开辟一个新的segment,清空直接内存而后在与新的segment造成映射关系。
零拷贝描述的是CPU不执行拷贝数据从一个存储区域到另外一个存储区域的任务,这一般用于经过网络传输一个文件时以减小CPU周期和内存带宽。
在Kafka的消费者读取数据的时候,若是当前消费者想读取的数据是否是当前直接内存所映射的segment怎么办?若是没有零拷贝的话,进程会先去调用read读取,而后数据会从磁盘被拷贝到内核,而后内核再拷贝到Kafka队列,进程再调用write将数据拷贝到内核缓冲区,最后再发送给消费者。实际上能够发现,数据没有必要读到Kafka队列,直接读到内核的缓冲区的时候发送给消费者就好了。实际上,linux内核中有一个系统调用就是实现了这种方式读取数据——sendfile,它有2个参数,一个是infd(读取数据的文件描述符),一个是outfd(客户端的socket文件描述符).消费者只需调用该函数,告诉它须要读取那个文件就能够不通过Kafka直接将数据读到内核,而后由内核写到消费者进程的缓冲区中。