字符编码小结


1、基础知识

计算机中储存的信息都是用二进制数表示的;而咱们在屏幕上看到的英文、汉字等字符是二进制数转换以后的结果。通俗的说,按照何种规则将字符存储在计算机中,如'a'用什么表示,称为"编码";反之,将存储在计算机中的二进制数解析显示出来,称为"解码",如同密码学中的加密和解密。在解码过程当中,若是使用了错误的解码规则,则致使'a'解析成'b'或者乱码。html

字符集(Charset):是一个系统支持的全部抽象字符的集合。字符是各类文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。浏览器

字符编码(Character Encoding):是一套法则,使用该法则可以对天然语言的字符的一个集合(如字母表或音节表),与其余东西的一个集合(如号码或电脉冲)进行配对。即在符号集合与数字系统之间创建对应关系,它是信息处理的一项基本技术。一般人们用符号集合(通常状况下就是文字)来表达信息。而以计算机为基础的信息处理系统则是利用元件(硬件)不一样状态的组合来存储和处理信息的。元件不一样状态的组合能表明数字系统的数字,所以字符编码就是将符号转换为计算机能够接受的数字系统的数,称为数字代码。服务器

2、从ASCII到Unicode

由于计算机只能处理数字,若是要处理文本,就必须先把文本转换为数字才能处理。最先的计算机在设计时采用8个比特(bit)做为一个字节(byte),因此,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),若是要表示更大的整数,就必须用更多的字节。好比两个字节能够表示的最大整数是65535,4个字节能够表示的最大整数是4294967295。ide

因为计算机是美国人发明的,所以,最先只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,好比大写字母A的编码是65,小写字母z的编码是122。编码

可是要处理中文显然一个字节是不够的,至少须要两个字节,并且还不能和ASCII编码冲突,因此,中国制定了GB2312编码,用来把中文编进去。加密

你能够想获得的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。设计

为了解决这个问题,一个伟大的创想产生了——Unicode。Unicode编码系统为表达任意语言的任意字符而设计。它使用4字节的数字来表达每一个字母、符号,或者表意文字(ideograph)。每一个数字表明惟一的至少在某种语言中使用的符号。(并非全部的数字都用上了,可是总数已经超过了65535,因此2个字节的数字是不够用的。)被几种语言共用的字符一般使用相同的数字来编码,除非存在一个在理的语源学(etymological)理由使不这样作。不考虑这种状况的话,每一个字符对应一个数字,每一个数字对应一个字符。即不存在二义性。再也不须要记录"模式"了。U+0041老是表明'A',即便这种语言没有'A'这个字符。code

在计算机科学领域中,Unicode(统一码、万国码、单一码、标准万国码)是业界的一种标准,它可使电脑得以体现世界上数十种文字的系统。Unicode 是基于通用字符集(Universal Character Set)的标准来发展,而且同时也以书本的形式1对外发表。Unicode 还不断在扩增, 每一个新版本插入更多新的字符。直至目前为止的第六版,Unicode 就已经包含了超过十万个字符(在2005年,Unicode 的第十万个字符被采纳且承认成为标准之一)、一组可用以做为视觉参考的代码图表、一套编码方法与一组标准字符编码、一套包含了上标字、下标字等字符特性的枚举等。Unicode 组织(The Unicode Consortium)是由一个非营利性的机构所运做,并主导 Unicode 的后续发展,其目标在于:将既有的字符编码方案以Unicode 编码方案来加以取代,特别是既有的方案在多语环境下,皆仅有有限的空间以及不兼容的问题。htm

(能够这样理解:用通讯理论的思路能够理解为:
unicode是信源编码,对字符集数字化;
utf8是信道编码,为更好的存储和传输。)
blog

新的问题又出现了:若是统一成Unicode编码,乱码问题今后消失了。可是,若是你写的文本基本上所有是英文的话,用Unicode编码比ASCII编码须要多一倍的存储空间,在存储和传输上就十分不划算。

因此,本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不一样的数字大小编码成1-6个字节,经常使用的英文字母被编码成1个字节,汉字一般是3个字节,只有很生僻的字符才会被编码成4-6个字节。若是你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:

字符 ASCII Unicode UTF-8
A 01000001 00000000 01000001 01000001
x 01001110 00101101 11100100 10111000 10101101

从上面的表格还能够发现,UTF-8编码有一个额外的好处,就是ASCII编码实际上能够被当作是UTF-8编码的一部分,因此,大量只支持ASCII编码的历史遗留软件能够在UTF-8编码下继续工做。

3、目前计算机系统通用的字符编码工做方式

搞清楚了ASCII、Unicode和UTF-8的关系,咱们就能够总结一下如今计算机系统通用的字符编码工做方式:

在计算机内存中,统一使用Unicode编码,当须要保存到硬盘或者须要传输的时候,就转换为UTF-8编码。

用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:
此处输入图片的描述
浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:
此处输入图片的描述
因此你看到不少网页的源码上会有相似 的信息,表示该网页正是用的UTF-8编码。

主要引用地址:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431664106267f12e9bef7ee14cf6a8776a479bdec9b9000
http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html

相关文章
相关标签/搜索