Python-字符编码

时间 2019-12-02

标签 python 字符编码栏目 Python 繁體版

原文原文链接

目录python

字符编码

字符是咱们人类可以读懂的字符，想让计算机读懂这些字符，必需要通过如下过程：编程

字符--》翻译过程--》数字（0101）编辑器

简而言之，字符编码就是将人类的字符翻译成计算机可以识别的数字，这种转换必须遵循一固定的标准，来表示字符与数字的对应关系，这个关系就是字符编码表性能

早期用英文编程没问题，ASCIl码够用，可是中国、韩国、日本也有本身的语言若是这时候还来用ASCIL码来编码各个国家的字符的时候就不能找到对应的关系了，就会出现乱码的状况。翻译

因而，各个国家发明了他们属于本身的编码code

中国 gb23十二、gbkorm

韩国 euc-krblog

日本 shift内存

再读取字符的时候按照各个国家的编码标准会出现乱码（由于此刻的各类标准都只是规定了本身国家的文字在内的字符跟数字的对应关系，若是单纯采用一种国家的编码格式，那么其他国家语言的文字在解析时就会出现乱码）。因此迫切须要一个世界的标准（能包含全世界的语言）

后来出现了把Unicode编码转化为“可变长编码”的UTF-8（Unicode Transformation Format-8）编码。uft8占用内存更小，更适合存储数据。

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

Python3中字符串类型都是Unicode编码的，因此Python3中的字符串类型的数据能够编码成其余字符编码的格式。

在Python3中不管指定了什么字符编码，在内存存取时都会使用Unicode编码去入内存，Unicode编码能够和任意的字符编码相互转换，并在读取时按照所需的编码区读取，这样就很好解决了字符编码的问题

字符按照什么标准而编码的，就要按照什么标准解码

（按照什么方式存的，就按什么方式取就不会乱码）

搞清楚了上面介绍的各类编码格式以后，接下来咱们就开始详细讲解为何会出现乱码了。关于乱码，你们记住两个要点：

（1）所谓乱码的本质是字符的编码格式与显示字符的环境编码格式不一致引发的。这句话告诉咱们要解决乱码问题，咱们须要知道两个信息，一个是字符自己是什么编码，另外一个就是显示字符的环境编码是什么，二者必须一致，才能显示出正确的内容。

（2）因为Unicode编码是标准编码格式，也能够看作是没有任何特定编码格式的“无编码”模式。因此，对于任何Unicode类型编码的字符，打印时python会自动根据环境编码转为特定编码后再显示。