综合技术--ascii、gb23十二、gbk、unicode、utf-8等几种字符集编码介绍

时间 2019-11-07

标签综合技术 ascii gb23 十二 gbk unicode utf 几种字符集编码介绍栏目字符编码繁體版

原文原文链接

ASCII字符集编码 ASCII码是美国标准信息交换码的简称，是标准的单字节编码。 ASCII码是7位编码，编码范围是0x00~0x7f，所以能够看出编码范围是0~127。 ASCII码能够表示全部的大小写字母(a~z,A~Z)、数字(0~9)、标点符号、特殊控制字符。 0~31与127(共33个)是控制字符或通讯专用字符。 32~47是空格、惊叹号、大小括号...句号、斜杠等字符。 48~57是0~9十个阿拉伯数字。 58~64是冒号、...@符号。 65~90是A~Z大写字母。 91~96是[ ... 、符号。 97~122是a~z小写字母。 123~126是{ | } ~符号。编码

GB2312字符集编码很显然ascii码不能知足中文的需求，随之而来是中国人发明的gb2312码。 GB2312是第一个汉字编码的国家标准。 GB2312是基于区位码设计的，他将编码表分红94个区，每一个区包含94个位。每一个字符的区号和位号组合起来就是该汉字的区位码。区位码用10进制数来表示，例如1601表示16区01位，对应的字符是"啊"。在区位码的区号和位号上分别加上0xA0就能够获得gb2312编码，所以gb2312的编码范围是0xA1A1~0x7E7E。设计

GBK字符集编码 GBK编码是GB2312编码的超集，向下彻底兼容gb2312。 GBK的总体编码范围是0x8140~0xfeff，高字节范围是0x80~0xfe，低字节范围是0x40~0x7e和0x80~0xfe。code

UNICODE字符集编码 unicode是ISO为了解决支持不一样语言而制定的一个标准，它为每种语言的每一个字符都设定了一个惟一的二进制码。 unicode制定了三套编码方式：utf-八、utf-1六、utf-32。 utf-8，字符是以8位序列来编码的，用一个或者多个字节(1B=8*b)来表示一个字符。内存

UTF-8 unicode最大的一个问题是：英文字母只须要一个字节表示就够了，而若是统一规定为unicode编码，则可能编码成2个或3个字节，那么这无疑是对内存的一种浪费。 unicode在很长一段时间内推广不开，直到互联网的大力发展，才解决了unicode的传输问题。为了兼容ascii码，规定互联网最小传输单位为8位，这就是utf-8。 utf-8是专为传输而设计的一种编码方式，并使编码无国界，这样就能够知足世界上全部的字符。 utf-8最大的特色是它是一种变长的编码方式，它可使用1~4个字节表示一个符号，根据不一样的符号产生不一样的字节。当在ascii码范围时，就用一个字节表示；unicode码对应一个中文字符占2个字节，而utf-8占3个字节。utf-8