UTF-8 可变编码格式

时间 2019-11-19

标签 utf 可变编码格式栏目字符编码繁體版

原文原文链接

转自：http://blog.csdn.net/swedenfeng/article/details/53467720

UTF-8 是一种可变编码格式，长度从一个字节到四个字节，可根据UTF-8字符的第一个字节来识别一个UTF-8字符的长度（具体见下面描述）.

由于网络中大部分的字符是ASCII码字符，UTF-8能够用一个字节表示ASCII字符，相较于UTF-16和UTF-32的两个字节或者四个字节，大幅节省了空间和传输带宽.网络

几个UTF-8的编码例子（由该网页工具转换 https://sites.google.com/site/nathanlexwww/tools/utf8-convert ）工具

字符 UTF-8编码 Byte 1 Byte 2 Byte 3google

A 01000001 编码

Ö 11000011 10010110 spa

中 11100100 10111000 10101101.net

Note: Byte 1 中开头"1"的个数就是整个 UTF-8编码中字节的数目（只适用于长度大于等于两个字节的UTF编码，表示ASCII编码的UTF首字节的首位是0）code

#如下内容部分来自wiki，部分来自stackoverflow.orm

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，也是一种前缀码。它能够用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须作少部分修改，便可继续使用。所以，它逐渐成为电子邮件、网页及其余存储或发送文字的应用中，优先采用的编码。blog

UTF-8使用一至六个字节为每一个字符编码（尽管如此，2003年11月UTF-8被RFC 3629从新规范，只能使用原来Unicode定义的区域，U+0000到U+10FFFF，也就是说最多四个字节）：ip

Binary Hex Comments
0xxxxxxx 0x00..0x7F Only byte of a 1-byte character encoding
10xxxxxx 0x80..0xBF Continuation bytes (1-3 continuation bytes)
110xxxxx 0xC0..0xDF First byte of a 2-byte character encoding
1110xxxx 0xE0..0xEF First byte of a 3-byte character encoding
11110xxx 0xF0..0xF7 First byte of a 4-byte character encoding

对于UTF-8编码中的任意字节X，若是X的第一位为0，则X独立的表示一个字符(ASCII码)
若是X的第一位为1，第二位为0，则X为一个多字节字符中的后续字节(非第一字节)
若是X的前两位为1，第三位为0，则X为两个字节表示的字符中的第一个字节
若是X的前三位为1，第四位为0，则X为三个字节表示的字符中的第一个字节
若是X的前四位为1，第五位为0，则X为四个字节表示的字符中的第一个字节

**Unicode 和 UTF-8 之间的转换关系表 ( `x` 字符表示码点占据的位 )**
码点的位数	码点起值	码点终值	字节序列	Byte 1	Byte 2	Byte 3	Byte 4	Byte 5	Byte 6
7	U+0000	U+007F	1	`0xxxxxxx`
11	U+0080	U+07FF	2	`110xxxxx`	`10xxxxxx`
16	U+0800	U+FFFF	3	`1110xxxx`	`10xxxxxx`	`10xxxxxx`
21	U+10000	U+1FFFFF	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
26	U+200000	U+3FFFFFF	5	`111110xx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
31	U+4000000	U+7FFFFFFF	6	`1111110x`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`

在ASCII码的范围，用一个字节表示，超出ASCII码的范围就用字节表示，这就造成了咱们上面看到的UTF-8的表示方法，这様的好处是当UNICODE文件中只有ASCII码时，存储的文件都为一个字节，因此就是普通的ASCII文件无异，读取的时候也是如此，因此能与之前的ASCII文件兼容。
大于ASCII码的，就会由上面的第一字节的前几位表示该unicode字符的长度，好比110xxxxx前三位的二进制表示告诉咱们这是个2BYTE的UNICODE字符；1110xxxx是个三位的UNICODE字符，依此类推；xxx的位置由字符编码数的二进制表示的位填入。越靠右的x具备越少的特殊意义。只用最短的那个足够表达一个字符编码数的多字节串。注意在多字节串中，第一个字节的开头"1"的数目就是整个串中字节的数目。

Some useful links:

http://www.unicode.org/Public/9.0.0/ucd/UnicodeData.txt

http://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=bin

##博客仅做我的记录##