"锟斤拷"的前世此生

不论是在工做中仍是生活中，相信不少同窗都被“锟斤拷”深深的毒害过，好比这样，web

这样，sql

还有这样，数据库

那么到底是为何会出现这些奇怪的字符？接下来咱们一探究竟！缓存

ASCII编码

在计算机底层都是用0和1进行存储的，ASCII编码将全部的字母及符号进行编码后转成二进制的0和1进行存储，字母和符号占1个字节（即8bit），标准的ASCII码规定最高位必须为0，所以ASCII编码只能有128个，转成十进制即为0-127。标准的ASCII码表以下：微信

ASCII码表只有128个字符，对于英语来讲已经够用了，可是世界上还有不少国家的文字各不相同，这时候就须要一个更加全面的编码出现。app

Unicode（又称统一码、万国码、单一码）是计算机科学领域里的一项业界标准。它为每种语言中的每一个字符设定了统一而且惟一的二进制编码。在表示一个Unicode的字符时，一般会用“U+”而后紧接着一组十六进制的数字来表示这个字符。编辑器

UTF-8与GBK

UTF-8是针对Unicode的一种可变长度字符编码。它能够用来表示Unicode标准中的任何字符，并且其编码中的第一个字节仍与ASCII相容。UTF-8使用一至四个字节为每一个字符进行编码。经常使用的汉字采用3个字节进行编码。flex

由于UTF-8是针对Unicode的一种可变长度的字符编码，因此它包含了世界上全部字符的编码，对于那些早录入的字符，就会优先使用一、2个字节来存储，对于迟录入的字符存储占用的字节就会大一些，这样，那些迟录入的字符存储空间就会很大。网站

对于一个中文网站，实际上并不须要其余国家的文字出现，可是中国汉字用UTF-8进行编码，大多数却占用了3个字节甚至更多字节，这样就形成了没必要要的存储浪费。为了解决这种问题，中华人民共和国全国信息技术标准化技术委员会制定了一套GB系列的编码，最经常使用的就是GBK了。ui

GBK编码英文使用单字节编码，彻底兼容ASCII字符，汉字使用了两个字节进行编码，其编码范围从0x8140（表示16进制）至0xFEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，图形符号 883 个。

为何要剔除xx7F，由于它对应的ASCII码表是DEL，意味着要向后删除一个字符。

为何会出现“锟斤拷”

Unicode编码一直持续在收录各类字符，这就可能会出现各类操做系统支持的Unicode字符不同。这也就会致使A上的一个用Unicode编码的字符，在B上就会出现没法显示的状况。为了不这种状况，在Unicode中定义了一个特殊字符�，它的Unicode编码为0xFFFD。

假如A支持特殊字符⬆，可是B并不支持这个⬆，那么在B中将会用�来代替。

这个字符用UTF-8编码后，十六进制表示为0xEF 0XBF 0XBD。若是连续出现两个⬆符号，那么用UTF-8编码后的十六进制则表示为0xEF 0XBF 0XBD 0xEF 0XBF 0XBD，这时候再转码成GBK，由于GBK中用两个字节表示一个字符，那么上述的字符就成了锟（0xEFBF），斤（0xBDEF），拷（0xBFBD）。出现锟斤拷的缘由就是UTF-8转码GBK的过程当中出现了问题。固然若是想要出现锟斤拷，则至少须要两个字符出现乱码。

接下来，咱们直接用代码来看一下效果：

@Test
void contextLoads() throws Exception {
    String str = "�";
    String strCode = new String(str.getBytes("UTF-8"), "GBK");
    System.out.println(strCode);
}

运行结果为锟�，前面也说了若是想要出现锟斤拷，则至少须要为两个字符，如今再修改一下代码。

@Test
void contextLoads() throws Exception {
    String str = "��";
    String strCode = new String(str.getBytes("UTF-8"), "GBK");
    System.out.println(strCode);
}

运行结果以下为锟斤拷。

若是之后再遇到锟斤拷，不要慌，它必定是UTF-8在转换GBK编码的时候出现了问题。如今看来GBK编码虽然减小了内存的浪费，可是也带来了很多问题。

参考：zhihu.com/question/23024782

< END >

往期精选

☞ 如何保证缓存与数据库的双写一致性？

☞ Spring 为啥默认把bean设计成单例的

☞ Coder，我怀疑你并不会枚举

☞ 聊聊Mysql中的int(1)

☞ 如何有效防止SQL注入攻击

本文分享自微信公众号 - Java旅途（Javatrip）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。