Python3的编码整理总结

python3在内存中是用unicode编码方式存储的，因此不能直接储存和传输，要转化为其余编码进行储存和传输。python

字符串经过编码转换成字节码，字节码经过解码成为字符串linux

encode：str --> byteswindows

decode：bytes --> str浏览器

下面是一些编码的关系服务器

0x01 关于ascii编码

由于计算机只能处理数字，若是要处理文本，就必须先把文本转换为数字才能处理。最先的计算机在设计时采用8个比特（bit）做为一个字节（byte），因此，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），若是要表示更大的整数，就必须用更多的字节。好比两个字节能够表示的最大整数是65535，4个字节能够表示的最大整数是4294967295。编码

因为计算机是美国人发明的，所以，最先只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，好比大写字母A的编码是65，小写字母z的编码是122。spa

可是要处理中文显然一个字节是不够的，至少须要两个字节，并且还不能和ASCII编码冲突，因此，中国制定了GB2312编码，用来把中文编进去。设计

所以，Unicode应运而生。Unicode把全部语言都统一到一套编码里，这样就不会再有乱码问题了。code

0x02 关于Unicode编码

Unicode把全部语言都统一到一套编码里，这样就不会再有乱码问题了。blog

ASCII编码是1个字节，而Unicode编码一般是2个字节。

字母A用ASCII编码是十进制的65，二进制的01000001；

字符0用ASCII编码是十进制的48，二进制的00110000，注意字符'0'和整数0是不一样的；

汉字中已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101。

你能够猜想，若是把ASCII编码的A用Unicode编码，只须要在前面补0就能够，所以，A的Unicode编码是00000000 01000001。

若是统一成Unicode编码，乱码问题今后消失了。可是，若是你写的文本基本上所有是英文的话，用Unicode编码比ASCII编码须要多一倍的存储空间，在存储和传输上就十分不划算。

因此，本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不一样的数字大小编码成1-6个字节，经常使用的英文字母被编码成1个字节，汉字一般是3个字节，只有很生僻的字符才会被编码成4-6个字节。若是你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

在计算机内存中，统一使用Unicode编码，当须要保存到硬盘或者须要传输的时候，就转换为UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件：

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：

0x03 python3的编码细节

python3默认的编码为unicode，utf-8能够看作是unicode的一个扩展集
encode：指明要使用的编码，decode:指明当前编码的编码格式

0x04 python2和python3的一些不一样

1) python2中默认使用ascii，python3中默认使用utf-8

2) Python2中，str就是编码后的结果bytes，str=bytes,因此s只能decode。

3) python3中的字符串与python2中的u'字符串'，都是unicode，只能encode，因此不管如何打印都不会乱码，由于能够理解为从内存打印到内存，即内存->内存，unicode->unicode

4) python3中，str是unicode，当程序执行时，无需加u，str也会被以unicode形式保存新的内存空间中,str能够直接encode成任意编码格式，s.encode('utf-8')，s.encode('gbk')

#unicode(str)-----encode---->utf-8(bytes)
#utf-8(bytes)-----decode---->unicode

5)在windows终端编码为gbk，linux是UTF-8.