Java中文字符处理的四大迷题

时间 2019-11-13

标签 java 中文字符处理四大栏目 Java 繁體版

原文原文链接

虽然计算机对英文字符的支持很是不错，咱们也巴不得写的程序只会处理英文的数据，可是昨为中国人，无可避免地要处理一些中文字符。当很简单的一件事情，遇到了中文，一切就不一样了！本文就会讲述实际生产环境中遇到的四个中文迷题，欢迎你们参与补充！html

一、“我”讲的其它机器听不懂？git

当把一串中文字符，经过HTTP、TCP方式传递到另一个系统时，会常常惊奇地发现，在发送前仍是好好的，可是收到后却全坏了！怎么办？下面提供几种状况，对症下药：github

（1）发送时使用的GET请求shell

要特别注意传递参数时，不要直接使用中文（如?key=热情），这基本就宣告了这个代码在某个浏览器、某个机器上，对方收到的东西就是乱码了。必需要对传递的参数进行Url Encode，接受方再进行Url Decode，取出来的数据基本就是OK的了。注：某些Java框架（如Spring）的RestTemplate会自动对GET方式的调用参与进行Encode、Decode，你就能够不用再人工去作了。浏览器

（2）使用了byte传递数据tomcat

在使用MQ、原生Socket等场景下，有时要用byte传递数据。这时必定要对String的getBytes方法传递编码参数，通常用"UTF-8"，且接收方则用new String(bytes, "UTF-8")来构造字符串，否则也有乱码风险！建议对须要用byte传递数据的场景，尽可能转为Base64编码的方式进行传递，更方便去调试程序。框架

（3）设置运行环境编码编码

若是你的系统默认编码未设置对，那么默认的Java代码运行环境也不对，因此一要在程序运行时对Java代码运行环境进行设置。以Linux Shell为例，在启动应用的shell里，增长spa

export LANG=en_US.UTF-8

这能够保证应用在调用系统命令行时，运行环境是以UTF-8编码的。另外若是是Tomcat，那么的脚本处也加上参数项：.net

-Dsun.jnu.encoding=UTF-8 -Dfile.encoding=UTF-8 -Duser.language=en -Duser.country=US

再修改tomcat默认编码（ISO-8859-1）方法，修改tomcat根目录的conf下的server.xml,Connector元素添加URIEncoding="UTF-8"属性：

<Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" URIEncoding="UTF-8" />

这能够保证应用的Java代码的默认运行是在UTF-8编码基础上的，若是须要通讯的系统全设置为UTF-8，能够避免诸多编码转换！

二、浏览器不认识“我”？

通常来讲，浏览与应用的交互就是GET、POST请求了，固然还有PUT、DELETE请求，不过举一反三，不须要讲太多。

POST请求的中文数据，常常是能够正常在先后台传递的，可是GET请求就没那么幸运了，必定要记得进行URL Encode与Decode，养成好的编码习惯，减小后续调试代码的难度与时间。

三、猜一猜“我”说的是什么？

在读写含中文文本的文件时，有时候也会读出乱码来，缘由是由于程序的运行编码永远只有默认的一种的，那么若是不带编码参数地去读取文件，因为文件编码可能与程序编码不一样，最后读出来的就是乱码了。这个时候，就须要写程序去“猜”文件的编码了。

如今有许多开源的识别编码的类库能够直接使用，可是也并不全是ok的，常见的编码能识别就好，像这些：UTF-八、GB23十二、GBK、GB18030、UTF-1六、US-ASCII、Big五、ISO-8859-1，遇到的几率很是大。我这里推荐几个：EncodingDetecotr、jChardet。

在读取到byte后，经过编码识别再存为相应的String，就能够获得正常的中文了。

四、据说UTF-8还有BOM？

BOM，在UCS编码中有一个叫作"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF，这就是所谓的BOM头了，它的UTF-8编码是EF BB BF。在Windows系统上，默认用记事本存储为UTF-8格式，是有BOM的，可是Linux下倒是默认无BOM的。缺了BOM的文件，常常在Windows下就识别出现错位、乱码等问题。解决之道就是在读取文件、byte的前几个字节，若是无BOM就给它加上BOM。

 1     /**
 2      * 判断文件是否有BOM
 3      * 
 4      * @return
 5      */
 6     public static boolean hasBom(File file) {
 7         FileInputStream input = null;
 8         try {
 9             input = new FileInputStream(file);
10             byte[] buf = new byte[1024];
11             if ((input.read(buf, 0, 1024)) != -1) {
12                 if (buf[0] == (byte) 0xEF && buf[1] == (byte) 0xBB && buf[2] == (byte) 0xBF) {
13                     return true;
14                 }
15             }
16             return false;
17         } catch (IOException e) {
18             _logger.error(e);
19             return true;
20         } finally {
21             if (input != null) {
22                 try {
23                     input.close();
24                 } catch (IOException e) {
25                     _logger.error("资源释放失败！", e);
26                 }
27             }
28         }
29     }

若是无BOM，则在传给Windows的地方或须要导出的地方这前先加上：new byte[] {(byte) 0xEF, (byte) 0xBB, (byte) 0xBF} 这些字节。

以上这些点若是注意了，常见的中文编码问题就解决了，若是还有新的坑，博主会在此更新哈。

转载请注明原址：http://www.cnblogs.com/lekko/p/4943581.html