Unicode 字符编码模型 - 0x01_简介

GitHub@ orca-j35,全部笔记均托管于 python_notes 仓库
欢迎任何形式的转载,但请务必注明出处。

我会写 5 篇文章来介绍 Unicode 字符编码模型(CHARACTER ENCODING MODEL)
本文会简要介绍一下模型的层次结构,并逐一列出相关的参考的资料php

Unicode 字符编码模型分为四个层级(level),概况以下:html

  • ACR: Abstract Character Repertoire 抽象字符库

    要编码(encoded)的字符集,好比:某些字母或符号集java

  • CCS: Coded Character Set 编码字符集

    从抽象字符库到到一组非负整数的映射python

  • CEF: Character Encoding Form 字符编码模式

    从一组非负整数到一组特定代码单元序列的映射,其中的非负整数应是 CCS 中元素,代码单元也应拥有指定宽度,如 32-bit 整数。git

  • CES: Character Encoding Scheme 字符编码方案

    从代码单元序列到 8-bits 字节序列的可逆转换。若是容许的话,会包含字节顺序标记(byte order mark - BOM)。github

将编码模型分为四个层级的目的是:建立一组能够经过各类编码模式编码的通用字符集,也就是说,同一字符集能够对应多种编码方式。网站

除了以上四个层级外,另外还有两个有用的概念:编码

  • CM: Character Map 字符映射

    这一律念将上述四个层级打包到一个操做中,包含从"抽象字符库成员序列"到字节序列的所有过程。spa

  • TES: Transfer Encoding Syntax 传输编码语法

    应用于文本和其它编码数据的可逆转换,数据须要通过转换后才容许被传输,例如 Base64 和 uuencode。code

参考

有关"字符编码模型"的笔记参考了以下内容:

字符属性

想要获取关于字符属性的信息,可阅读以下内容:

扩展阅读

书籍和网站

欢迎关注公众号: import hello

公众号

相关文章
相关标签/搜索