NIO入门java
前段时间在公司里处理一些大的数据,并对其进行分词、提取关键字等。虽然说任务基本完成了(效果也不是特别好),对于Java还没入门的我来讲前先后后花了2周的时间,我本身也是醉了。固然也有涉及到机器学习的知识,我想陆陆续续的记录下个人这一次任务的过程,也算作一个总结。编程
首先,手上有这么个达G级别的文件,按照Java普通I/O的方式确定是不行的了,划分文件的话,也不知何年何月才能读完。因此后来上网查找了相关资料,才知道有这么个神奇的NIO。数组
在Java编程中,I/O是用流的方式读取文件,全部I/O都被视为单个的字节的移动,经过一个称为Stream的对象一次移动一个字节。Java中新的输入/输出(NIO)库是在JDK1.4中引入的。NIO弥补了原来I/O的不足,它在标准Java代码中提供了高速、面向块的I/O。经过定义包含数据的块,以及经过以块的形式来处理这些数据,NIO不用使用本机代码就能够利用低级优化,这是原来的I/O包所没法作到的。机器学习
流与块的比较学习
原来的I/O库和NIO最重要的区别就是数据打包和传输的方式,原来的I/O以流的方式处理数据,而NIO以块的方式处理数据。优化
面向流的I/O系统一次一个字节的处理数据,一个输入流产生一个字节的数据,一个输出流产生一个字节的数据。spa
一个面向块的I/O系统以块的形式处理数据。每个操做都在一步中产生或者消费一个数据块。按块处理数据比按字节处理数据要快得多,即使它没有面向流的I/O那样的简单性。code
通道和缓冲区对象
通道和缓冲区是NIO中的核心对象,几乎在每个I/O操做中都要使用它们。blog
通道是对原I/O包中的流的模拟。到任何目的地或来自任何地方的全部数据都必须经过一个Channel对象。一个Buffer实质上是一个容器对象。发送给一个通道的全部对象都必须首先存放到缓冲区中;一样的,从通道中读取任何的数据都必须首先读取到缓冲区里。
什么是缓冲区?
Buffer是一个对象,它包含一些要写入或者刚读出的数据。 在 NIO 中加入Buffer对象,体现了新库与原 I/O 的一个重要区别。在面向流的 I/O 中,您将数据直接写入或者将数据直接读到Stream对象中。在 NIO 库中,全部数据都是用缓冲区处理的。在读取数据时,它是直接读到缓冲区中的。在写入数据时,它是写入到缓冲区中的。任什么时候候访问 NIO 中的数据,您都是将它放到缓冲区中。缓冲区实质上是一个数组。一般它是一个字节数组,可是也可使用其余种类的数组。可是一个缓冲区不只仅是一个数组。缓冲区提供了对数据的结构化访问,并且还能够跟踪系统的读/写进程。
缓冲区类型
最经常使用的缓冲区类型是ByteBuffer。一个ByteBuffer能够在其底层字节数组上进行 get/set 操做(即字节的获取和设置)。ByteBuffer不是 NIO 中惟一的缓冲区类型。事实上,对于每一种基本 Java 类型都有一种缓冲区类型:
ByteBuffer
CharBuffer
ShortBuffer
IntBuffer
LongBuffer
FloatBuffer
DoubleBuffer
每个Buffer类都是Buffer接口的一个实例。 除了ByteBuffer,每个 Buffer 类都有彻底同样的操做,只是它们所处理的数据类型不同。由于大多数标准 I/O 操做都使用ByteBuffer,因此它具备全部共享的缓冲区操做以及一些特有的操做。
下面看一下FloatBuffer的简单例子:
1 import java.io.FileInputStream; 2 import java.io.FileNotFoundException; 3 import java.io.FileOutputStream; 4 import java.nio.ByteBuffer; 5 import java.nio.FloatBuffer; 6 import java.nio.channels.FileChannel; 7 8 // UseFloatBuffer 9 10 public class UseFloatBuffer { 11 12 public static void main(String[] args) throws Exception { 13 14 FloatBuffer fb=FloatBuffer.allocate(10); 15 for (int i=0; i<fb.capacity(); i++) { 16 float f=(float)((float)i/10*(2*Math.PI)); 17 fb.put(f); 18 } 19 fb.flip(); 20 while (fb.hasRemaining()){ 21 float f=fb.get(); 22 System.out.println(f); 23 } 24 } 25 }
什么是通道?
Channel是一个对象,能够经过它读取和写入数据。拿 NIO 与原来的 I/O 作个比较,通道就像是流。正如前面提到的,全部数据都经过 Buffer 对象来处理。您永远不会将字节直接写入通道中,相反,您是将数据写入包含一个或者多个字节的缓冲区。一样,您不会直接从通道中读取字节,而是将数据从通道读入缓冲区,再从缓冲区获取这个字节。简而言之,就是NIO的大体流程为:输入文件->缓冲区->通道->缓冲区->程序处理数据->缓冲区->通道->缓冲区->输出文件;I/O的大体流程为:输入文件->流->程序处理数据->流->输出文件。
通道类型
通道与流的不一样之处在于通道是双向的。而流只是在一个方向上移动(一个流必须是InputStream或者OutputStream的子类),而通道能够用于读、写或者同时用于读写。
实践起来:NIO 中的读和写
读和写是 I/O 的基本过程。从一个通道中读取很简单:只需建立一个缓冲区,而后让通道将数据读到这个缓冲区中;写入也至关简单:建立一个缓冲区,用数据填充它,而后让通道用这些数据来执行写入操做。
从文件中读取
若是使用原来的 I/O,那么咱们只需建立一个FileInputStream并从它那里读取。而在 NIO 中,状况稍有不一样:咱们首先从FileInputStream获取一个Channel对象,而后使用这个通道来读取数据。
在 NIO 系统中,任什么时候候执行一个读操做,您都是从通道中读取,可是您不是直接从通道读取。由于全部数据最终都驻留在缓冲区中,因此您是经过通道读到缓冲区中的数据。
所以读取文件涉及三个步骤:
(1) 从FileInputStream获取Channel
(2) 建立Buffer
(3) 将数据从Channel读到Buffer中。
1 FileInputStream fin=new FileInputStream("read.txt"); 2 FileChannel fc=fin.getChannel(); 3 ByteBuffer buffer=ByteBuffer.allocate(1024); 4 fc.read(buffer);
写入文件
在 NIO 中写入文件相似于从文件中读取。首先从FileOutputStream获取一个通道;下一步是建立一个缓冲区并在其中放入一些数据 - 在这里,数据将从一个名为data的数组中取出,最后一步是写入缓冲区中。
1 FileOutputStream fout=new FileOutputStream("write.txt"); 2 FileChannel fc=fout.getChannel(); 3 ByteBuffer buffer=ByteBuffer.allocate(1024); 4 for (int i=0; i<data.length; i++) { 5 buffer.put(data[i]); 6 } 7 buffer.flip(); 8 fc.write(buffer);
实战练习
咱们以一个名为 CopyFile.java 的简单程序做为这个练习的基础,它将一个文件的全部内容拷贝到另外一个文件中。CopyFile.java 执行三个基本操做:首先建立一个Buffer,而后从源文件中将数据读到这个缓冲区中,而后将缓冲区写入目标文件。这个程序不断重复 ― 读、写、读、写 ― 直到源文件结束。
1 // CopyFile 2 3 import java.io.*; 4 import java.nio.*; 5 import java.nio.channels.*; 6 7 public class CopyFile { 8 9 static public void main( String args[] ) throws Exception { 10 String infile="E:\\北京欢迎你.txt"; 11 String outfile="E:\\out.txt"; 12 13 FileInputStream fin=new FileInputStream(infile); 14 FileOutputStream fout=new FileOutputStream(outfile); 15 FileChannel fcin = fin.getChannel(); 16 FileChannel fcout = fout.getChannel(); 17 18 ByteBuffer buffer = ByteBuffer.allocate(1024); 19 20 while (true) { 21 buffer.clear(); 22 int r=fcin.read(buffer); 23 if (r == -1) { 24 break; 25 } 26 buffer.flip(); 27 fcout.write(buffer); 28 } 29 } 30 }