摘要: 理解计算机是如何存储数据的。git
Fundebug经受权转载,版权归原做者全部。github
PS:数据传输大多以 bit 为单位,好比咱们常说的网速100M/s,M/s其实Mbit/s,也就是兆比特每秒,咱们还能够写成100Mbps。编程
ASCII:小程序
/ˈæski/
,即 American Standard Code for Information Interchange,美国信息交换标准代码。原本一个字节有8位,每一位有0和1两种状态,则一个字节共有2^8=256种状态,能够表示256种字符。可是美国佬比较自私,以为只要能够表示本身的字母和一些特殊字符就足够了,因此 ASCII 没有占用最高位(而是固定为0),实际只用到了后面7位,它能够表示 2^7=128 种状态,也就是表示128个字符。segmentfault
很显然,这用来表示字母是足够的,但要想表示其它语言的字符,128仍是太少了。微信小程序
PS:附送 ASCII 对照表一张:微信
GB2312:性能
既然美国佬只解决了字母和特殊符号的编码问题,那么咱们中国人只好实现本身的编码,从而来表示汉字了。因此这时候出现了 GB2312 编码(国标码)。编码
问题:不幸的是,各个国家都是这么想的,因此小日本有了 Shift_JIS 编码,棒子有了 Euc-kr 编码…..一时之间各国都有了本身的标准,那么对于一个多语言混合的文原本说,存在着不一样的编码规则,最终必然致使乱码。debug
Unicode:
Unicode 解决了编码统一的问题。每种语言的每一个字符在 Unicode 的规则下,都只有统一且惟一的对应二进制编码。它的表示方法是U+[16进制数]
。例如,大写字母 A 编码为 U+0041
,汉字“严”编码为 U+4E25
。
问题:Unicode 通常用2个字节(也就是16位)表示一个字符,这在表示 ASCII 字符的时候会出现问题。咱们知道,ASCII 字符实际只须要一个字节就够了,而且最高位甚至都还不须要用到,可是 Unicode 又规定表示一个字符至少须要2个字节,那么一个 ASCII 字符前面就必需要补0以知足这个规则,例如字母 A 就须要用 00000000 01000001
表示,这些多余的0是一个极大的资源浪费。
UTF-8:
UTF:实际传输过程当中,基于不一样的系统平台,对 Unicode 会有不不一样的实现方式,其实现方式称为 Unicode Transformation Format,即 UTF。
做为 Unicode 的一种实现方式,UTF-8 展示了必定的灵活性——它是一种变长编码,会根据具体字符来改变所须要的表示字节。其编码规则只有两条:
i>. 对于 128 个 ASCII 字符只需一个字节表示,字节的第一位补 0,后面 7 位为这个字符的 ASCII 二进制数。Unicode 范围为 U+0000 至U+007F。
ii>. 对于 n 字节的符号(n>1),第一个字节的前 n 位都设为 1,第 n+1 位设为 0,后面字节的前两位一概设为 10。剩下的没有说起的二进制位,所有为这个符号的 Unicode 码二进制数。Unicode 范围由 U+0080 起。
也能够看下面这张图:
以汉字“严”为例,演示如何实现 UTF-8 编码。
“严”的 Unicode 是 U+4E25
(二进制数 100111000100101),据表,U+4E25
处在第三行的范围内(U+0800
~ U+FFFF
),所以“严”的UTF-8 编码须要三个字节,即格式 1110xxxx 10xxxxxx 10xxxxxx
。而后,从“严”的最后一个二进制位开始,依次从后向前填入格式中的 x,多出的位补 0。这样就获得 UTF-8 编码(二进制)是 11100100 10111000 10100101
,转换成十六进制就是 E4B8A5
。
Fundebug专一于JavaScript、微信小程序、微信小游戏、支付宝小程序、React Native、Node.js和Java线上应用实时BUG监控。 自从2016年双十一正式上线,Fundebug累计处理了20亿+错误事件,付费客户有阳光保险、核桃编程、荔枝FM、掌门1对一、微脉、青团社等众多品牌企业。欢迎你们免费试用!