第一次发这种博客,因此一直在纠结怎么开头,干脆直奔主题吧,把本身的一些总结体会记录下来,先从简单的学习开始,但愿能够慢慢坚持,之后的内容能够写的更好更有意义。java
其实真正在工做中中文乱码的问题遇到的很少,那是由于公司为了开发方便因此文件都统一编码了。可是我以为还有颇有必要去稍微了解一下其原理的。设计模式
IO就是输入输出流,用面向对象来理解的话,就是输入,输出流对象,主要用来操做文件对象。因此再稍微谈谈文件的概念,即File对象。在Java中,File不是咱们平时生活中指的某个具体文件,而是某个路径对象,好比说 File file=new File("D:\\aaa"); 这就是一个File对象,也许它表示的是一个文件夹,也许这个路径都不存在,可是这句代码就的的确确建立了一个表示该路径的File对象。这种写法只是不经常使用罢了。由于咱们平时可能更多的是操做一个文本,图片等等,如File f=new File("aaa.txt");服务器
上面简单说了IO,File是什么,接下来再谈谈这些图片,文字,视频等信息是如何保存在咱们存储设备上的。我的理解是不论是什么类型的文件,都是二进制的形式保存,最小单位是1个byte,即8位01组成。因此说咱们假如要拷贝一个文件,只要操做字节流就行了,即把一个文件中的全部字节拿到,写到另外一个文件中就OK了,其实理论上是能够的,可是对于字符型的文件比较特殊。这也就是为何会有中文乱码的问题出现。ASCII码表你们都很熟悉,起码都据说过,它应该算是很早出现的一种码表了吧,起初只是用来表示26个英文字母和一些特殊符号(由于计算机只识别二进制,因此要把字符用相应的字节来代替,造成一张码表)。可是随着计算机的发展,ASCII应该不够用了吧,并且不少国家应该也都有本身的一套编码方案,因此就出现了不一样的编码表。常见的有GBK,UTF-8,而jvm中默认使用的是unicode编码,即以2个字节表示一个汉字,UTF-8则不必定,可能3个字节表示一个汉字,也可能更多。因此就出现了一个问题,同一个汉字在不一样的码表中对应的字节码的个数和内容都不相同。因此如何解决?网络
咱们从A磁盘上拷贝一张图片到B磁盘上,只要把A的全部字节拿到B就能够了。可是一样的方式操做一个文本其实也是能够的,前提是A和B中的文本编码要相同。由于图片不存在字节编码的问题。可是我要从网络上或者服务器去传输中文怎么办呢,确定不能单单经过字节来实现了(由于咱们不可能遇到问题就手动去更改文件的编码方式吧)。因此java中提供了字符流对象,即在字节流的基础上加上对编码的设置,达到解决乱码的问题。jvm
废话很少说,用几个小案例来讲明一下:学习
1,首先在当前项目下新建aa.txt,bb.txt。随便在aa中写几个中文字符。会发现这两种方式均可以实现编码
a,采用字符流设计
FileReader fr=new FileReader("aa.txt");
FileWriter fw=new FileWriter("bb.txt");
int c;
while((c=fr.read())!=-1){
fw.write(c);
}
fr.close();
fw.close();3d
b,采用字节流code
FileInputStream fis=new FileInputStream("aa.txt");
FileOutputStream fos=new FileOutputStream("bb.txt");
int b;
while((b=fis.read())!=-1){
fos.write(b);
}
fis.close();
fos.close();
2,此时假如aa的编码方式是UTF-8的话,那么咱们把bb的编码改成GBK看看,一样运行上面两种方法,所有乱码。
缘由就是因为两个文件的编码方式不一样,致使中文查的码表不一样,因此乱码。
3,因此当两边文件的编码方式不一样,咱们能够在读取和写入的时候都指定与其文件对应的编码便可。
实现方式以下:
InputStreamReader isr=new InputStreamReader(new FileInputStream("aa.txt"),"utf-8");
OutputStreamWriter osw=new OutputStreamWriter(new FileOutputStream("bb.txt"),"gbk");
char[] arr=new char[1024];
int len;
while((len=isr.read(arr))!=-1){
String s=new String(arr,0,len);
System.out.println(s);
osw.write(s);
}
isr.close();
osw.close();
代码虽然很简单,仍是简单的解释一下,从API中能够发现InputStreamReader和OutputStreamWriter都是操做字符的对象,继续Reader和Writer。
主要用来把字节转成字符,字符转成字节。因此从构造中也能够发现,传入的是字节流对象。以utf-8去读取字节流转成字符,再将字符以gbk编码转成字节写入。
下面几行就不作解释了,都是基础里面的方法。构造中传入的是匿名内部类对象,还有装饰设计模式,这种写法简单了解下便可。
关于字节流和字符流其实还有不少很好用的类,好比BufferedInputStream,BufferedReader等等,再次不作赘述。
关于jvm和系统平台的编码问题,在次不作解释。
能够用String来尝试一下,观察字符串在编译和运行时的字节码及编码问题。