如下内容说的都是 python 2.x 版本html
咱们看到的输入输出都是‘字符’(characters),计算机(程序)并不能直接处理,须要转化成字节数据(bytes),由于程序只能处理 bytes 数据。
例如:文件、网络传输等,处理的都是 bytes 数据——二进制数字。python
孤立的 byte 是毫无心义的,因此咱们来赋予他们含义。就引入‘字符集’的概念,‘字符集’就是一个码位(code point)对应的一个字符的表。网络
该表用于赋予 byte 意义。还须要知道一个点:由于 ASCII 字符集支持的字符太少,不能表示各个国家语言中的字符。因此就发明了
Unicode ——万国码,该字符集包含了你能用到的全部的字符。函数
在 python 中字符串分为两个对象:str
和 unicode
测试
unicode_obj.encode() ——> bytes ‘编码’(encode) bytes_obj.decode() ——> unicode ‘解码’(decode)
UTF-8 是最流行的一种对 Unicode 进行传播和存储的编码方式。因此,多用它做为编码方式。编码
s = 'hello' # str u = u'你好' # unicode back_to_bytes = u.encode('utf-8') back_to_utf8 = back_to_bytes.decode('utf-8') # 或 unicode(s, 'utf-8')
正如前面所说的,计算机只能操做 bytes,因此 Python 在编译原文件的时候,会先把源文件进行编码,默认以‘ASCII’进行编码。这就是为何若是源文件中带有‘中文’,须要在源文件的起始行声明编码方式。code
完成编码后,源码中的全部字符,都变成了 bytes 计算机就能够进行编译和处理了。编译过程:htm
根据这个过程,在本身的代码中也应该按照这个逻辑处理,意思是:对象
参考:PEP 263 -- Defining Python Source Code Encodingsblog
byte 流中不会包含编码信息(编码信息会在:文件的开头、协议中等地方声明)
Content-Type:text/html; charset=UTF-8
指明的编码有多是错误的(出现乱码)
在 python 中处理编码问题,会出现不少问题,这里就不一一列举。
这些问题大都是使用了不匹配的编码方式进行解码、编码形成的。而 python 为了语法更加简介,在一些内置方法中,使用了一些隐性转换。这种隐形的转换带了的便捷的同时也会带来一些非预期的错误。下面就一一道来。
a = "abc" + u"bcd"
a = "abc" + u"bcd"
,Python 会如此转换 "abc".decode(sys.getdefaultencoding()) 而后将两个 Unicode 字符合并。
str()
和unicode()
,sys.getdefaultencoding()
默认为:ASCII,这就是为何str(u'中文')
和unicode('中文')
分别会报错:UnicodeEncodeError和UnicodeDecodeError。由于ASCII编码方式,编码/解码不了中文(支持的字符有限)。
print
函数print
函数,会对输出的内容进行编码,这是由于:所谓的输出,也是从一个程序到另一个程序。程序之间的交互都是都是传递 bytes。比方说print
,就是把数据传递给 终端 ,终端也是个程序,因此print
函数就把须要输出的内容编码成了 bytes,采用那种编码方式,就是
由sys.stdout.encoding
参数决定的。
在交互环境下(python、ipython)输入的数据的编码则由sys.stdin.encoding
参数决定。参考:What does python print() function actually do?
python 的默认编发方式为 ASCII。
如何改变python的默认编码方式?:
import sys # sys.setdefaultencoding() does not exist, here! reload(sys) # Reload does the trick! sys.setdefaultencoding('UTF8')
为何要重载sys
模块?
由于若是在编译.py
文件的以前,改变默认编码,会影响Python的编译。
当编译完,再重载sys
模块,它就是变成了第三方模块,能够随便更改,不回影响编译。setdefaultencoding()
函数才能够调用。参考:Changing default encoding of Python?
本片文章没有列举出常见的异常,由于若是看懂了上面全部的解释。再按照下面的姿式使用,那么 python2 中的编码问题,因该就不会再困扰你了。
Unicode 三明治:尽量的让你程序处理的文本都为 Unicode 。以下图:
了解你的字符串。你应该知道你的程序中,哪些是 unicode, 哪些是 byte,对于这些 byte 串。你应该知道,他们的编码是什么。(详情见上述小结第 4 条)
测试 Unicode 支持。使用一些奇怪的符号来测试你是否已经作到了以上几点。(测试看看你的程序是否支持中文)