字符编码笔记：ASCII，Unicode 和 UTF-8（理解）

时间 2019-12-09

标签字符编码笔记 ascii unicode utf 理解栏目字符编码繁體版

原文原文链接

一、ASCII 码
- 美国制定的字符编码规则，对英语字符与二进制位之间的关系作了统一规定。
- 占一个字节，8 位，最多可表示 2^8 = 256 种状态（字符）
- 实际共有 128 个字符，只占用一个字节的后面 7 位。首位统一规定为 0。
二、非 ASCII 编码
- 其余国家各自制定的编码规则。映射本国字符和二进制之间的关系。
  - 适合本国字符数在256之内的国家。
- 其余国家（字符数 > 256），则有本身的编码规则。好比中文的：GB2312
三、Unicode
- 容纳世界上全部符号的符号集。每一个符号都有本身的二进制代码。
- 只是一个符号集，只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。
  - 好比：英文字符所有可用 1 个字节表示，可是汉字可能须要 2 或 3 个字节。一种编码格式所有都用2个或者3个字节表示会有浪费。因此该如何存储呢？
四、UTF-8
- 一、概念：
  - 互联网上使用最广的一种 Unicode 的实现方式。（Unicode 也有其余实现方式）
- 二、特色：
  - 变长的编码方式。它可使用 1~4 个字节表示一个符号，根据不一样的符号而变化字节长度。
- 三、编码规则：
  - 1）对于单字节的符号，字节的第一位设为 0，后面 7 位为这个符号的 Unicode 码。
    - 所以对于英语字母，UTF-8 编码和 ASCII 码是相同的。
  - 2）对于 n 字节的符号（n > 1），第一个字节的前 n 位都设为 1，第 n + 1 位设为 0，后面字节的前两位一概设为 10。
    - 剩下的没有说起的二进制位，所有为这个符号的 Unicode 码。
- 四、Unicode 和 UTF-8的对应关系（）
  - 4.1 关系图：
    - 图：
      - ![](https://raw.githubusercontent.com/SmallNum/MyPic/master/20190523113640.png)
    - 说明：
      - 总感受这个图不理解，不过仍是作一些解读和说明吧。
      - 第一行：
        
        字符最多占7位（0-7位）
        
        因此：Unicode 符号范围：0（十六进制：0）-111 1111（十六进制：7F）
      - 第二行：
        
        字符最多占11位（8-11位）
        
        Unicode 符号范围：1000 0000（十六进制：80）-111 1111 1111（十六进制：7FF）
      - 第三行：
        
        字符最多占16位（12-16位）
        
        Unicode 符号范围：1000 0000 0000（十六进制：800）-111 1111 1111（十六进制：7FF）
      - 第四行：
        
        字符最多占21位
        
        Unicode 符号范围：同上
  - 4.2 转换：
    - Unicode 和 UTF-8都用16位表示，须要从中提取出来具体的值，而后转换。
    - Unicode 到 UTF-8 的转换
      - 根据Unicode 的值，肯定其符号范围对应的 UTF-8 是多少位。而后，高位补0填充。
    - UTF-8 提取 Unicode
      - 看其是多少位，提取相关的 Unicode 值。
五、编码存储方式：Little endian 和 Big endian
- 5.1 概念理解
  - 以汉字严为例，Unicode 码是 4E25，须要用两个字节存储，一个字节是 4E，另外一个字节是 25。
    - 存储时，4E 在前，25 在后，这就是 Big endian 方式；
    - 25 在前，4E 在后，这是 Little endian 方式。
  - 即：通常文本都是从左往右的格式。
    - 若是编码从左往右存：是 Big endian 方式（高位在前，FE FF 表示）
    - 若是编码从右往左存：是 Little endian 方式（高位在后，FF FE 表示）
- 5.2 区分：
  - Unicode 规范定义，每一个文件的最前面分别加入一个表示编码顺序的字符，这个字符的名字叫作 "零宽度非换行空格"（zero width no-break space），用 FEFF 表示。这正好是两个字节，并且 FF 比 FE 大 1。
  - 若是一个文本文件的头两个字节是 FE FF，就表示该文件采用大头方式（左小右大）；
  - 若是头两个字节是 FF FE，就表示该文件采用小头方式（左大右小）。
六、参考：
- 字符编码笔记：ASCII，Unicode 和 UTF-8 - 阮一峰的网络日志 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html