关于python编码，你真的明白了吗

时间 2019-12-06

原文原文链接

计算机存储的几个概念

想要完全搞清楚编码问题，咱们必需要先搞清楚计算机是怎么存储数据的，这就涉及到了计算机基础的几个概念了，开篇咱们就先来捋捋这几个容易混淆的概念。html

bit

二进制位，是计算机内部数据储存的最小单位，11010100是一个8位二进制数。一个二进制位只能够表示0和1两种状态（2^1）；两个二进制位能够表示00、0一、十、11四种（2^2）状态；三位二进制数可表示八种状态（2^3）……python

Byte

字节，是计算机中数据处理的基本单位，计算机中以字节为单位存储和解释信息，规定一个字节由八个二进制位构成，即1个字节等于8个比特（1Byte=8bit）。八位二进制数最小为00000000，最大为11111111；一般1个字节能够存入一个ASCII码，2个字节能够存放一个汉字国标码。python2.7

字

在计算机中，一串数码做为一个总体来处理或运算的，称为一个计算机字，简称宇。字一般分为若干个字节(每一个字节通常是8位)。在存储器中，一般每一个单元存储一个字，所以每一个字都是能够寻址的。字的长度用位数来表示。在计算机的运算器、控制器中，一般都是以字为单位进行传送的。函数

字长

字长：电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。因此能处理字长为8位数据的CPU一般就叫8位的CPU。同理32位的CPU就能在单位时间内处理字长为32位的二进制数据。post

字节和字长的区别：因为经常使用的英文字符用8位二进制就能够表示，因此一般就将8位称为一个字节。字长的长度是不固定的，对于不一样的CPU、字长的长度也不同。8位的CPU一次只能处理一个字节，而32位的CPU一次就能处理4个字节，同理字长为64位的CPU一次能够处理8个字节。编码

常见的编码

ASCII: 1个字节，只编码英文字母和符号.net

gb2312: 2个字节，增长了中文汉字和符号code

Unicode: 把全部语言都统一到一套编码里把全部语言都统一到一套编码里，
通常是2个字节，生僻字4个字节htm

utf-8：可变长编码，经常使用的英文字母被编码成1个字节，汉字一般是3个字节，只有很生僻的字符才会被编码成4-6个字节。若是你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：blog

在计算机内存中，统一使用Unicode编码，当须要保存到硬盘或者须要传输的时候，就转换为UTF-8编码，这样能够节省不少存储空间。

Python编码

注：这里讨论的是python2.7的状况

两个函数

在python中，str和unicode都是basestring的子类，basestring有如下两个方法：

encode()：将unicode字符串转换为其余编码字符串，参数为转换后编码

decode()：将其余编码转换为unicode字符串，参数为转换前编码

PS:"string".decode('utf-8') == unicode('string', 'utf-8')

一个栗子

s = '中文'
print type(s), len(s)

u = u'中文'
print type(u), len(u)

u2s = u'中文'.encode('utf-8')
print type(u2s), len(u2s)

结果是这样的

<type 'str'> 6
<type 'unicode'> 2
<type 'str'> 6

console下查看u2s

>>> u'中文'.encode('utf-8')
'\xe4\xb8\xad\xe6\x96\x87'

结论：

python中定义的一个str变量实则是字节串，由Unicode通过编码(encode)后的字节组成的（
也正好印证了utf8编码中一个中文字符是3个字节）
Unicode才是真正意义上的字符串，由字符组成

再次回顾两个函数用法

s = '中文'
# 这时是str，转为unicode须要用decode
u = s.decode('utf-8')
print type(u)
# 打印 <type 'unicode'>

# unicode转为str ,使用encode
s2 = u.encode('utf-8')
print type(s2)
# 打印 <type 'str'>

新结论：不一样编码转换,使用Unicode做为中间编码

#s是code_A的str
s.decode('code_A').encode('code_B')

在Python 3.x版本中，把'xxx'和u'xxx'已经都统一成Unicode编码了，即写不写前缀u都是同样的，而以字节形式表示的字符串则必须加上b前缀：b'xxx'。

因为Python源代码也是一个文本文件，因此，当你的源代码中包含中文的时候，在保存源代码时，就须要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，咱们一般在文件开头写上这两行：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

参考

字节、字、位、比特，这四者之间的关系
 廖雪峰：python2.7教程之字符串和编码
 PYTHON-进阶-编码处理小结