Python2编码问题

时间 2019-11-13

标签 python2 python 编码问题栏目 Python 繁體版

原文原文链接

如下内容说的都是 python 2.x 版本html

简介

基本概念
Python “帮”你作的事情
推荐姿式

一、基本概念

咱们看到的输入输出都是‘字符’（characters），计算机（程序）并不能直接处理，须要转化成字节数据（bytes），由于程序只能处理 bytes 数据。
例如：文件、网络传输等，处理的都是 bytes 数据——二进制数字。python

1.1 ASCII / Unicode

孤立的 byte 是毫无心义的，因此咱们来赋予他们含义。就引入‘字符集’的概念，‘字符集’就是一个码位（code point）对应的一个字符的表。网络

该表用于赋予 byte 意义。还须要知道一个点：由于 ASCII 字符集支持的字符太少，不能表示各个国家语言中的字符。因此就发明了
Unicode ——万国码，该字符集包含了你能用到的全部的字符。函数

1.2 Encode / Decode

在 python 中字符串分为两个对象：str 和 unicode测试

str： a sequence of bytes
unicode：a sequence of code point(码位——字符集中的数字)

unicode_obj.encode() ——> bytes ‘编码’(encode)
bytes_obj.decode() ——> unicode ‘解码’(decode)

UTF-8 是最流行的一种对 Unicode 进行传播和存储的编码方式。因此，多用它做为编码方式。编码

s = 'hello' # str

u = u'你好' # unicode

back_to_bytes = u.encode('utf-8')

back_to_utf8 = back_to_bytes.decode('utf-8') # 或 unicode(s, 'utf-8')

1.3 声明编码

正如前面所说的，计算机只能操做 bytes，因此 Python 在编译原文件的时候，会先把源文件进行编码，默认以‘ASCII’进行编码。这就是为何若是源文件中带有‘中文’，须要在源文件的起始行声明编码方式。code

完成编码后，源码中的全部字符，都变成了 bytes 计算机就能够进行编译和处理了。编译过程：htm

读取文件
不一样的文件，根据其声明的编码去解析为Unicode
转换为UTF-8字符串
针对UTF-8字符串，去分词
编译，建立Unicode对象（Python解释器处理）

根据这个过程，在本身的代码中也应该按照这个逻辑处理，意思是：对象

接收外部数据时，统一转化为Unicode
代码内部处理的都是Unicode
输出时统一转化为UTF-8（网络数据传输、文本输出）

参考：PEP 263 -- Defining Python Source Code Encodingsblog

1.4 小结

程序中全部的输入和输出均为 byte
世界上的文本须要比 256 更多的符号来表现（ASCII是不够的）
你的程序必须可以处理 byte 和 unicode
byte 流中不会包含编码信息(编码信息会在：文件的开头、协议中等地方声明)
```
Content-Type:text/html; charset=UTF-8
```
指明的编码有多是错误的（出现乱码）

二、python “帮”你作的事情

在 python 中处理编码问题，会出现不少问题，这里就不一一列举。

这些问题大都是使用了不匹配的编码方式进行解码、编码形成的。而 python 为了语法更加简介，在一些内置方法中，使用了一些隐性转换。这种隐形的转换带了的便捷的同时也会带来一些非预期的错误。下面就一一道来。

2.1 `a = "abc" + u"bcd"`

a = "abc" + u"bcd"，Python 会如此转换 "abc".decode(sys.getdefaultencoding()) 而后将两个 Unicode 字符合并。

2.2 两个内建方法`str()`和`unicode()`，

str：something.encode(sys.getdefaultencoding())
unicode：something.decode(sys.getdefaultencoding())

sys.getdefaultencoding()默认为：ASCII，这就是为何str(u'中文')和unicode('中文')分别会报错：UnicodeEncodeError和UnicodeDecodeError。由于ASCII编码方式，编码／解码不了中文（支持的字符有限）。

2.3 `print`函数

print函数，会对输出的内容进行编码，这是由于：所谓的输出，也是从一个程序到另一个程序。程序之间的交互都是都是传递 bytes。比方说print，就是把数据传递给终端，终端也是个程序，因此print函数就把须要输出的内容编码成了 bytes，采用那种编码方式，就是
由sys.stdout.encoding参数决定的。

在交互环境下（python、ipython）输入的数据的编码则由sys.stdin.encoding参数决定。参考：What does python print() function actually do?

2.4 默认编码方式

python 的默认编发方式为 ASCII。

如何改变python的默认编码方式？：

import sys
# sys.setdefaultencoding() does not exist, here!
reload(sys)  # Reload does the trick!
sys.setdefaultencoding('UTF8')

为何要重载sys模块？

由于若是在编译.py文件的以前，改变默认编码，会影响Python的编译。
当编译完，再重载sys模块，它就是变成了第三方模块，能够随便更改，不回影响编译。setdefaultencoding()函数才能够调用。参考：Changing default encoding of Python?

三、推荐姿式

本片文章没有列举出常见的异常，由于若是看懂了上面全部的解释。再按照下面的姿式使用，那么 python2 中的编码问题，因该就不会再困扰你了。

Unicode 三明治：尽量的让你程序处理的文本都为 Unicode 。以下图：
了解你的字符串。你应该知道你的程序中，哪些是 unicode, 哪些是 byte，对于这些 byte 串。你应该知道，他们的编码是什么。（详情见上述小结第 4 条）
测试 Unicode 支持。使用一些奇怪的符号来测试你是否已经作到了以上几点。（测试看看你的程序是否支持中文）

参考

1. python2编码问题
2. Python2编码问题
3. python2和python3编码问题
4. Python2 和 Python3 编码问题
5. Python2.x的编码问题
6. python2中的编码问题
7. python2爬虫编码问题
8. Python2 编码问题分析
9. python2的编码问题
10. python2 python3编码问题记录
更多相关文章...
• XML 编码 - XML 教程
• Markdown 标题 - Markdown 教程
• PHP Ajax 跨域问题最佳解决方案
• IntelliJ IDEA中SpringBoot properties文件不能自动提示问题解决