Unicode 字符编码模型 - 0x01_简介

时间 2020-01-09

标签 unicode 字符编码模型 0x01 简介栏目字符编码繁體版

原文原文链接

GitHub@ orca-j35，全部笔记均托管于 python_notes 仓库
欢迎任何形式的转载，但请务必注明出处。
我会写 5 篇文章来介绍 Unicode 字符编码模型(CHARACTER ENCODING MODEL)
本文会简要介绍一下模型的层次结构，并逐一列出相关的参考的资料php

Unicode 字符编码模型分为四个层级(level)，概况以下：html

ACR: Abstract Character Repertoire 抽象字符库
要编码(encoded)的字符集，好比：某些字母或符号集java
CCS: Coded Character Set 编码字符集
从抽象字符库到到一组非负整数的映射python
CEF: Character Encoding Form 字符编码模式
从一组非负整数到一组特定代码单元序列的映射，其中的非负整数应是 CCS 中元素，代码单元也应拥有指定宽度，如 32-bit 整数。git
CES: Character Encoding Scheme 字符编码方案
从代码单元序列到 8-bits 字节序列的可逆转换。若是容许的话，会包含字节顺序标记(byte order mark - BOM)。github

将编码模型分为四个层级的目的是：建立一组能够经过各类编码模式编码的通用字符集，也就是说，同一字符集能够对应多种编码方式。网站

除了以上四个层级外，另外还有两个有用的概念：编码

CM: Character Map 字符映射
这一律念将上述四个层级打包到一个操做中，包含从"抽象字符库成员序列"到字节序列的所有过程。spa
TES: Transfer Encoding Syntax 传输编码语法
应用于文本和其它编码数据的可逆转换，数据须要通过转换后才容许被传输，例如 Base64 和 uuencode。code

参考

有关"字符编码模型"的笔记参考了以下内容：

字符属性

想要获取关于字符属性的信息，可阅读以下内容：

5 Properties - UNICODE CHARACTER DATABASE，主要关注如下部分
- Table 7. Property Index by Scope of Use
- Table 12. General_Category Values
4.2. Categories - Programming with Unicode
General Category from Wikipedia
Unicode Character Categories
https://www.compart.com/en/un... - 介绍 Unicode 知识的网站
UnicodeData.txt 解释了 UincodeData.txt 中各个字段的含义
https://unicode-table.com/cn/...

扩展阅读

书籍和网站

Programming with Unicode- 介绍 Unicode 的书
https://www.compart.com/en/un... - 介绍 Unicode 知识的网站 ⭐
http://www.fileformat.info/in... - 介绍 Unicode 知识的网站

欢迎关注公众号: import hello

相关文章

相关标签/搜索

编码字符集

字符编码系列

编辑器简介

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<