Unicode 和 UTF-8 的概念是一个很是基础和重要,可是却容易被忽略的问题。bash
在计算机系统中,全部的数据都以二进制存储,全部的运算也以二进制表示,人类语言和符号也须要转化成二进制的形式,才能存储在计算机中,因而须要有一个从人类语言到二进制编码的映射表。这个映射表就叫作字符集。网络
最先的字符集叫 American Standard Code for Information Interchange(美国信息交换标准代码),简称 ASCII,由 American National Standard Institute(美国国家标准协会)制定。在ASCII 字符集中,字母 A
对应的字符编码是 65
,转换成二进制是 0100 0001
,因为二进制表示比较长,一般使用十六进制 41
。ide
ASCII 字符集总共规定了 128 种字符规范,可是并无涵盖西文字母以外的字符,当须要计算机显示存储中文的时候,就须要一种对中文进行编码的字符集,GB 2312 就是解决中文编码的字符集,由国家标准委员会发布。同时考虑到中文语境中每每也须要使用西文字母,GB 2312 也实现了对 ASCII 的向下兼容,原理是西文字母使用和 ASCII 中相同的代码,可是 GB 2312 只涵盖了 6000 多个汉字,还有不少没有包含在其中,因此又出现了 GBK 和 GB 18030,两种字符集都是在 GB 2312 的基础上进行了扩展。编码
能够看到,光是简体中文,就前后出现了至少三种字符集,繁体中文方面也有 BIG5 等字符集,几乎每种语言都须要有一个本身的字符集,每一个字符集使用了本身的编码规则,每每互不兼容。同一个字符在不一样字符集下的字符代码不一样,这使得跨语言交流的过程当中双方必需要使用相同的字符编码才能不出现乱码的状况。为了解决传统字符编码的局限性,Unicode 诞生了,Unicoide 的全称是 Universal Multiple-Octet Coded Character Set(通用多八位字符集,简称 UCS)。Unicode 在一个字符集中包含了世界上全部文字和符号,统一编码,来终结不一样编码产生乱码的问题。spa
Unicode 统一了全部字符的编码,是一个 Character Set,也就是字符集,字符集只是给全部的字符一个惟一编号,可是却没有规定如何存储,一个编号为 65
的字符,只须要一个字节就能够存下,可是编号 40657
的字符须要两个字节的空间才能够装下,而更靠后的字符可能会须要三个甚至四个字节的空间。code
这时,用什么规则存储 Unicode 字符就成了关键,咱们能够规定,一个字符使用四个字节存储,也就是 32 位,这样就能涵盖现有 Unicode 包含的全部字符,这种编码方式叫作 UTF-32(UTF 是 UCS Transformation Format 的缩写)。UTF-32 的规则虽然简单,可是缺陷也很明显,假设使用 UTF-32 和 ASCII 分别对一个只有西文字母的文档编码,前者须要花费的空间是后者的四倍(ASCII 每一个字符只须要一个字节存储)。orm
在存储和网络传输中,一般使用更为节省空间的变长编码方式 UTF-8,UTF-8 表明 8 位一组表示 Unicode 字符的格式,使用 1 - 4 个字节来表示字符。cdn
UTF-8 的编码规则以下(U+ 后面的数字表明 Unicode 字符代码):blog
U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
复制代码
能够看到,UTF-8 经过开头的标志位位数实现了变长。对于单字节字符,只占用一个字节,实现了向下兼容 ASCII,而且能和 UTF-32 同样,包含 Unicode 中的全部字符,又能有效减小存储传输过程当中占用的空间。ip