字符编码小结

时间 2019-11-18

原文原文链接

1、基础知识

计算机中储存的信息都是用二进制数表示的；而咱们在屏幕上看到的英文、汉字等字符是二进制数转换以后的结果。通俗的说，按照何种规则将字符存储在计算机中，如'a'用什么表示，称为"编码"；反之，将存储在计算机中的二进制数解析显示出来，称为"解码"，如同密码学中的加密和解密。在解码过程当中，若是使用了错误的解码规则，则致使'a'解析成'b'或者乱码。html

字符集（Charset）：是一个系统支持的全部抽象字符的集合。字符是各类文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。浏览器

字符编码（Character Encoding）：是一套法则，使用该法则可以对天然语言的字符的一个集合（如字母表或音节表），与其余东西的一个集合（如号码或电脉冲）进行配对。即在符号集合与数字系统之间创建对应关系，它是信息处理的一项基本技术。一般人们用符号集合（通常状况下就是文字）来表达信息。而以计算机为基础的信息处理系统则是利用元件（硬件）不一样状态的组合来存储和处理信息的。元件不一样状态的组合能表明数字系统的数字，所以字符编码就是将符号转换为计算机能够接受的数字系统的数，称为数字代码。服务器

2、从ASCII到Unicode

由于计算机只能处理数字，若是要处理文本，就必须先把文本转换为数字才能处理。最先的计算机在设计时采用8个比特（bit）做为一个字节（byte），因此，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），若是要表示更大的整数，就必须用更多的字节。好比两个字节能够表示的最大整数是65535，4个字节能够表示的最大整数是4294967295。ide

因为计算机是美国人发明的，所以，最先只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，好比大写字母A的编码是65，小写字母z的编码是122。编码

可是要处理中文显然一个字节是不够的，至少须要两个字节，并且还不能和ASCII编码冲突，因此，中国制定了GB2312编码，用来把中文编进去。加密

你能够想获得的是，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。设计

为了解决这个问题，一个伟大的创想产生了——Unicode。Unicode编码系统为表达任意语言的任意字符而设计。它使用4字节的数字来表达每一个字母、符号，或者表意文字(ideograph)。每一个数字表明惟一的至少在某种语言中使用的符号。（并非全部的数字都用上了，可是总数已经超过了65535，因此2个字节的数字是不够用的。）被几种语言共用的字符一般使用相同的数字来编码，除非存在一个在理的语源学(etymological)理由使不这样作。不考虑这种状况的话，每一个字符对应一个数字，每一个数字对应一个字符。即不存在二义性。再也不须要记录"模式"了。U+0041老是表明'A'，即便这种语言没有'A'这个字符。code

在计算机科学领域中，Unicode（统一码、万国码、单一码、标准万国码）是业界的一种标准，它可使电脑得以体现世界上数十种文字的系统。Unicode 是基于通用字符集（Universal Character Set）的标准来发展，而且同时也以书本的形式1对外发表。Unicode 还不断在扩增，每一个新版本插入更多新的字符。直至目前为止的第六版，Unicode 就已经包含了超过十万个字符（在2005年，Unicode 的第十万个字符被采纳且承认成为标准之一）、一组可用以做为视觉参考的代码图表、一套编码方法与一组标准字符编码、一套包含了上标字、下标字等字符特性的枚举等。Unicode 组织（The Unicode Consortium）是由一个非营利性的机构所运做，并主导 Unicode 的后续发展，其目标在于：将既有的字符编码方案以Unicode 编码方案来加以取代，特别是既有的方案在多语环境下，皆仅有有限的空间以及不兼容的问题。htm

（能够这样理解：用通讯理论的思路能够理解为:
unicode是信源编码，对字符集数字化;
utf8是信道编码，为更好的存储和传输。）blog

新的问题又出现了：若是统一成Unicode编码，乱码问题今后消失了。可是，若是你写的文本基本上所有是英文的话，用Unicode编码比ASCII编码须要多一倍的存储空间，在存储和传输上就十分不划算。

因此，本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不一样的数字大小编码成1-6个字节，经常使用的英文字母被编码成1个字节，汉字一般是3个字节，只有很生僻的字符才会被编码成4-6个字节。若是你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

从上面的表格还能够发现，UTF-8编码有一个额外的好处，就是ASCII编码实际上能够被当作是UTF-8编码的一部分，因此，大量只支持ASCII编码的历史遗留软件能够在UTF-8编码下继续工做。

3、目前计算机系统通用的字符编码工做方式

搞清楚了ASCII、Unicode和UTF-8的关系，咱们就能够总结一下如今计算机系统通用的字符编码工做方式：

在计算机内存中，统一使用Unicode编码，当须要保存到硬盘或者须要传输的时候，就转换为UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件：

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：

因此你看到不少网页的源码上会有相似的信息，表示该网页正是用的UTF-8编码。

主要引用地址：http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431664106267f12e9bef7ee14cf6a8776a479bdec9b9000
http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html

1. 字符编码小结
2. python --- 字符编码学习小结(一)
3. 前端字符编码小结
4. python --- 字符编码学习小结(二)
5. class编码与字符编码格式小结(ASCII/Unicode/UTF-8)
6. python3字符编码解码总结-2
7. 字符编码
8. --- 字符编码 ---
更多相关文章...
• XML 编码 - XML 教程
• R 字符串 - R 语言教程
• Scala 中文乱码解决
• IntelliJ IDEA代码格式化设置