旧文重发：漫谈字符集和编码

时间 2019-11-11

原文原文链接

本文写于好久好久之前，最初发在live space上，后来空间关了，我也就没再找地方重发。今天有网友找来问，想作转发，因此我作了一点点微小的整理工做，重贴一次原文。
－－－－－－－－－－－－－－－－－－－－－－－－－－
　　
　　快下班了，爱问问题的小朋友Nico又问了一个问题：
　　“sqlserver里面有char和nchar，那个n听说是指unicode的数据，这个是什么意思。”
　　并非全部简单的问题都很容易回答，就像这个问题同样。因而我答应专门写一篇BLOG来从头讲讲编码的故事。那么就让咱们找个草堆坐下，先抽口烟，看看夜晚天空上的银河，而后想想要从哪里开始讲起。嗯，也许这样开始比较好……
　　
　　
　　好久好久之前，有一群人，他们决定用8个能够开合的晶体管来组合成不一样的状态，以表示世界上的万物。他们看到8个开关状态是好的，因而他们把这称为“字节”。
　　再后来，他们又作了一些能够处理这些字节的机器，机器开动了，能够用字节来组合出不少状态，状态开始变来变去。他们看到这样是好的，因而它们就这机器称为“计算机”。
　　
　　开始计算机只在美国用。八位的字节一共有256种不一样的状态。
　　他们把其中的编号从0开始的32种状态分别规定了特殊的用途，一但终端、打印机赶上这些字节被传过来时，就要作一些约定的动做。因而打印机会打印反白的字了（0x1b…），会换行(0x10)了，终端会嘟嘟(0x07)叫了，有色彩(0x1b…)了。他们看到这样很好，因而就把这些0x20如下的字节状态称为“控制码”。
　　他们又把全部的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就能够用不一样字节来存储英语的文字了。你们看到这样，都感受很好，因而你们都把这个方案叫作ANSI的“Ascii”编码（American Standard Code for Information Interchange，美国信息互换标准代码），全部的计算机都用一样的ASCII方案来保存英文文字。
　　后来，就像建造巴比伦塔同样，世界各地的都开始使用计算机，可是不少国家用的不是英文，他们的字母里有许可能是ASCII里没有的，为了能够在计算机保存他们的文字，他们决定采用127号以后的空位来表示这些新的字母、符号，还加入了不少画表格时须要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255。从128到255这一页的字符集被称“扩展字符集”。今后以后，贪LAN的人类再没有新的状态能够用了，美帝国主义可能没有想到还有第三世界国家的人们也但愿能够用到计算机吧！
　　等中国人们获得计算机时，已经没有能够利用的字节状态来表示汉字，何况有6000多个经常使用汉字须要保存呢。可是这难不倒智慧的中国人民，咱们直接不客气地把那些127号以后的奇异符号们取消掉, 规定：两个连续字节表示一个汉字，高字节(前面的一个字节)从0xA1用到0xF7，低字节从0xA1到0xFE，这样咱们就能够组合出大约7000多个简体汉字了。在这些编码里，咱们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在ASCII里原本就有的数字、标点、字母都通通从新编了两个字节长的编码，这就是常说的“全角”字符，而原来在127号如下的那些就叫“半角”字符了。
　　中国人民看到这样很不错，因而就把这种汉字方案叫作“GB2312”。GB2312是对ASCII的中文扩展。
　　可是中国的汉字太多了，咱们很快就就发现有许多人的人名没有办法在这里打出来，特别是某些很会麻烦别人的国家领导人。因而咱们不得不继续把GB2312没有用到的码位找出来老实不客气地用上。
　　后来仍是不够用，因而干脆再也不要求低字节必定是127号以后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，无论后面跟的是否是扩展字符集里的内容。结果扩展以后的编码方案被称为GBK标准，GBK包括了GB2312的全部内容，同时又增长了近20000个新的汉字（包括繁体字）和符号。
　　后来少数民族也要用电脑了，因而咱们再扩展，GBK扩成了GB18030，又加了几千个新的少数民族的字。今后以后，中华民族的文化就能够在计算机时代中传承了。
　　中国的程序员们看到这一系列汉字编码的标准是好的，因而通称他们叫作“DBCS”（Double byte charecter set双字节字符集）。在DBCS系列标准里，单字节字符和双字节字符同时存在，所以他们写的程序为了支持中文处理，必需要注意字串里的每个字节的值，若是这个值是大于127的，那么就认为一个双字节字符集里的字符出现了。那时候凡是受过加持，会编程的人都要天天念下面这个咒语数百遍：
　　“一个汉字算两个英文字符！一个汉字算两个英文字符……”
　　
　　可是世界民族之林中，还有很很多用不上电脑的少数民族，他们的文字怎么办？并且各个国家都像中国这样搞出一套本身的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码。当时的中国人想让电脑显示汉字，就必须装上一个“汉字系统”，专门用来处理汉字的显示、输入的问题，可是那个台湾的愚昧封建人士写的算命程序就必须加装另外一套支持BIG5编码的什么“倚天汉字系统”才能够用。
　　真是计算机的巴比伦塔命题啊！
　　正在这时，国际标谁化组织ISO及时出现了，他们决定废了全部的地区性编码方案，从新搞一个包括了地球上全部文化、全部字母和符号的编码来，还打算叫它“Universal Multiple-Octet Coded Character Set”，简称UCS, 俗称“UNICODE”。
　　UNICODE开始制订时，计算机的存储器容量极大地发展了，空间不再成为问题了。因而ISO就没有考虑与ANSI兼容的问题，而直接规定必须用两个字节，也就是16位来统一表示全部的字符，因为“半角”英文符号只须要用到低８位，因此其高位永远是０，所以这种大气的方案在保存英文文本时会多浪费一倍的空间。
　　这时候，从旧社会里走过来的程序员开始发现一个奇怪的现象：他们的strlen函数靠不住了，一个汉字再也不是至关于两个字符了，而是一个！是的，从UNICODE开始，不管是半角的英文字母，仍是全角的汉字，它们都是统一的“一个字符！”同时，也都是统一的“两个字节”，请注意“字符”和“字节”两个术语的不一样。UNICODE的一个字符就是两个字节。一个汉字算两个英文字符的时代已经快过去了。
　　多种字符集存在时，那些作多语言软件的公司赶上了很大麻烦，他们在区域化软件时不得不也加持那个双字节字符集咒语，还要到处当心不要搞错。UNICODE对于他们来讲是一个很好的一揽子解决方案，因而从Windows NT开始，MS趁机把它们的操做系统改了一遍，把全部的核心代码都改为了兼容UNICODE的版本，从这时开始，WINDOWS系统终于无须要加装各类本土语言系统，就能够显示全世界上全部文化的字符了。
　　可是，UNICODE在制订时没有考虑与任何一种现有的编码方案保持兼容，这使得GBK与UNICODE在汉字的内码编排上彻底是不同的，没有一种简单的算术方法能够把文本内容从一个编码转换到另外一种编码，这种转换必须经过查表来进行。
　　如前所述，UNICODE是用两个字节来表示为一个字符，他总共能够组合出65535不一样的字符，这大概已经能够覆盖世界上全部文化的符号。若是还不够也没有关系，ISO已经准备了UCS-4方案，说简单了就是四个字节来表示一个字符，这样咱们就能够组合出21亿个不一样的字符出来（最高位有其余用途），这大概能够用到银河联邦成立那一天吧！
　　
　　UNICODE来到时，一块儿到来的还有计算机网络的兴起，UNICODE如何在网络上传输也是一个必须考虑的问题，因而面向传输的众多UTF（UCS Transfer Format）标准出现了，顾名思义，UTF8就是每次8个位传输数据，而UTF16就是每次16个位，只不过为了传输时的可靠性，从UNICODE到UTF时并非直接的对应，而是要过一些算法和规则来转换。
　　受到过网络编程加持的计算机僧侣们都知道，在网络里传递信息时有一个很重要的问题，就是对于数据高低位的解读方式，一些计算机是采用低位先发送的方法，例如咱们的INTEL架构，而另外一些是采用高位先发送的方式，在网络中交换数据时，为了核对双方对于高低位的认识是不是一致的，采用了一种很简便的方法，就是在文本流的开始时向对方发送一个标志符——若是以后的文本是高位在位，那就发送“FEFF”，反之，则发送“FFFE”。不信你能够用二进制方式打开一个UNICODE或是UTF-X格式的文件，看看开头两个字节是否是这两个字节？
　　
　　讲到这里，咱们再顺便说说一个很著名的奇怪现象：当你在windows的记事本里新建一个文件，输入“联通”两个字以后，保存，关闭，而后再次打开，你会发现这两个字已经消失了，代之的是几个乱码！呵呵，有人说这就是联通之因此拼不过移动的缘由。
　　其实这是由于GB2312编码与UTF8编码产生了编码冲撞的缘由。
　　从网上引来一段从UNICODE到UTF8的转换规则：程序员

|-------------|-----------------------------|
|Unicode | UTF-8 |
|-------------|-----------------------------|
|0000 – 007F| 0xxxxxxx |
|0080 - 07FF| 110xxxxx 10xxxxxx |
|0800 – FFFF| 1110xxxx 10xxxxxx 10xxxxxx |
|-------------|-----------------------------|算法

　　例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，因此确定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 1100 0100 1001，将这个比特流按三字节模板的分段方法分为0110 110001 001001，依次代替模板中的x，获得：1110-0110 10-110001 10-001001，即E6 B1 89，这就是其UTF8的编码。
　　而当你新建一个文本文件时，记事本的编码默认是ANSI, 若是你在ANSI的编码输入汉字，那么他实际就是GB系列的编码方式，在这种编码下，“联想”的内码是：
　　c1 1100 0001
　　aa 1010 1010
　　cd 1100 1101
　　a8 1010 1000
　　注意到了吗？第一二个字节、第三四个字节的起始部分的都是“110”和“10”，正好与UTF8规则里的两字节模板是一致的，因而再次打开记事本时，记事本就误认为这是一个UTF8编码的文件，让咱们把第一个字节的110和第二个字节的10去掉，咱们就获得了“00001 101010”，再把各位对对齐，补上前导的0，就获得了“0000 0000 0110 1010”，很差意思，这是UNICODE的006A，也就是小写的字母“j”，而以后的两字节用UTF8解码以后是0368，这个字符什么也不是。这就是只有“联通”两个字的文件没有办法在记事本里正常显示的缘由。
　　而若是你在“联通”以后多输入几个字，其余的字的编码不见得又刚好是110和10开始的字节，这样再次打开时，记事本就不会坚持这是一个utf8编码的文件，而会用ANSI的方式解读之，这时乱码又不出现了。
　　
　　好了，终于能够回答NICO的问题了，在数据库里，有n前缀的字串类型就是UNICODE类型，这种类型中，固定用两个字节来表示一个字符，不管这个字符是汉字仍是英文字母，或是别的什么。
　　若是你要测试“abc汉字”这个串的长度，在没有n前缀的数据类型里，这个字串是7个字符的长度，由于一个汉字至关于两个字符。而在有n前缀的数据类型里，一样的测试串长度的函数将会告诉你是5个字符，由于一个汉字就是一个字符。
　　
　　但愿这篇文章正是NICO想要的.sql