Python 与 Unicode

最近使用 Python 2 处理一些网络相关的问题,被 Unicode, String 相关的一系列编码问题搞得一头雾水。在这里整理一下相关的概念吧。python

ASCII Unicode UTF8

首先是与 Python 无关的编码问题。在这里理清楚这几个常见的名词:ASCII, Unicode, UTF8 之间的关系。网络

咱们知道,为了使用计算机处理字符,须要将字符编码为数字。对于英文字符,128 个数字就够了,其中最多见的英文字符编码方案就是 ASCII,该方案规定了使用 7 位二进制数编码英文字符的方案。数据结构

对于非英文字符,特别是汉语这种有超大字符集的语言,须要须要一个很大的编码表将字符编码为数字。竞争以后如今通用的方案是 Unicode,该方案的目标是覆盖全部人类语言符号。也就是说,Unicode 定义了一个从任意字符到数字的一一映射关系。函数

对于 ASCII 而言,一个字符(使用 7 位编码)占用一个字节(8 位)就够了,能够简单地用这个字节表示一个无符号整数来表明编码,浪费并不大。可是对于 Unicode 而言,因为码表太大,须要不少字节才能表示一个 Unicode 编码数字,并且 Unicode 是一个成长中的项目,其码表不断扩充。所以,如何用字节表示 Unicode 编码数字就成了一个问题,UTF-8 就是解决这个问题的方案之一。该方案是一种变长方案,使用不定长的字节表示一个数字。方案对于包含在 ASCII 码表中的字符只使用 1 个字节进行编码,对于非英语拼音语言符号一般使用 2 个字节编码,汉字一般使用 3 个字节进行编码。编码

若是接触过信息论,能够很容易的理解变长编码是如何作到的。若是读者没有接触过信息论,这里展现一种简陋的变长编码方案,方便读者理解。
第一个字节老是使用无符号整数表示。当数值位于 [0,254] 中时,这个字节的表明的数值就是编码的数值。但当数值是 255 时,不表示这个数字是 255,而是表示这个数字加上以后两位(16 bit) 表明的数以后才是编码的数字,因而这个边长方案能使用 1~3 字节编码 [0, (2 ^ 16 - 1) + (2 ^ 8 - 1)] 之间的数字。code

总结而言就是,Unicode 是一个字符到数字映射表,而 UTF-8 是数字到字节的编码方案。ASCII 因为只使用一个字节,一般不太强调其数字的编码方案。对象

Python 与 Unicode

接下来是 Python 中对于字符串的处理。unicode

python 2 中的 str 和 unicode

在 Python 2 中,其 str 类型规定了底层的数据结构,是 8 位整数串,也即跟 C 语言中的字符串相似。而 unicode 类型是整数串,并不规定整数的位数或保存方式。unicode.encode() 方法在指定一种编码方式以后返回一个 str 对象,即为这个 unicode 字符串在该编码方式之下的字节表示。字符串

用例子说明这个问题:string

# python 2
us = u"你好"
assert(len(us) == 2)
# us 是整数串,共有两个整数,表明两个字符

s = us.encode("utf8")
assert(len(s) == 6)
# 使用 utf8 编码以后,每一个汉字用 3 个字节表示,共 6 个字节

仅仅是这样,并不会引发太大的混淆。一个问题是 python 2 的字符串是能够被初始化为非英文字符的:

# python 2
s = "你好"
assert(len(s) == 6)

这种状况下解释器会自动完成编码工做,具体编码方式笔者认为用户不该该知道,并且笔者认为这种用法可能不是一种很好的用法。

更加糟糕的是,python 2 的 print 语句表现有时候会有些神奇:

# python 2
print "你好"
# 获得 你好
print u"你好"
# 获得 你好
print ["你好"]
# 获得 ['\xe4\xbd\xa0\xe5\xa5\xbd']
print [u"你好"]
# 获得 [u'\u4f60\u597d']

也就是,只有当直接 print str 或者 print unicode 的时候可以正常输出中文,其余状况下, print [str] 会输出 'str'print [unicode] 会输出 u'unicode'。这些打印结果看上去会让人怀疑没有解码,其实是 print 语句的行为而已。

python 3 中的 byte 和 str

在 python 2 中,str 是一种底层数据结构,相似于比特串,但 string 这个英语单词的意思是字符串,容易引发混淆,如 unicode.encode() 返回值是一个 str,逻辑上并不恰当。

这些问题在 python 3 中获得解决。python 2 中的 str 类型至关于 python 3 中的 bytes 类型, bytes 这个名字明确的指出这是字节串,而且不指定字节串表明什么东西。而 python 3 中的 str 相似于 python 2 中的 unicode 类型, 再也不指定底层编码规则。str.encode() 返回一个 bytes 类型也更加符合逻辑。

用例子说明:

# python 3
s = "你好“
assert(len(s) == 2)

bs = s.encode('utf8')
assert(len(s) == 6)

Python 3 中的 print 函数通常老是能够正常打印 str,而不是输出码值。

相关文章
相关标签/搜索