任何一种语言、文字、符号等等,计算都是将其以一种相似字典的形式存起来的,好比最先的计算机系统将英文文字转为数字存储(ASCII码),这种文字与数字(或其余)一一对应的关系咱们称之为编码。因为ASCII码只包含了大小写英文字母、数字和一些符号,显然当计算机推广到世界以后随着语种增多,这套编码并不适用,因而中国针对中文推出了GB2312码,可是多语言时,又不行了,因而就出现了强大的Unicode(万国码)。可是因为Unicode存储性能问题,在纯英文时存储效率要远低于ACSII码,因而又出现了如今的UTF-8编码(8-bit Unicode Transformation Format),能够看作是Unicode的增强版,经过可变长度的编码来使存储最优,并且UTF-8编码包含了ASCII码,这一点很是重要。
python处理文本时的中间编码为Unicode,因而就有了decode和encode,前者将unicode之外的字符串解码为unicode,后者将unicode编码为指定编码。python
首先,当你在python代码中输入一个字符串时候,它是以什么编码形式被保存的呢?linux
1.若是输入了一串纯英文,数字,或英文状态下的标点符号,那么不管有没有在代码最前面作编码申明(如"# -- coding:utf-8 --"),字符串都是由ASCII码存储的,缘由很简单,ascii码只支持英文,占用性能与空间小。git
2.若是输入了中文,那么状况一会儿就变得复杂起来。此时必须进行编码申明,不然会抛出以下错误:“Non-ASCII character '\xe5' in file **,but no encoding declared”,意思就是你输入了ASCII码没法识别的东西,且没有进行编码申明,因此此时要在文件开头进行编码申明,完整版以下:github
#!/usr/bin/python # -*- coding: <encoding name> -*-
此时
1.chardet库的detect方法能够获得字符串的编码类型,当输入字符串为unicode时程序报错,有时候也会误判,置信水平小鱼0.7则不可轻信了。c#
2.上述只针对在非DOS中执行py文件时适用:若是是在IDLE中单步执行,则中文字符串是以系统默认编码(windows-1252)保存;若是是在DOS界面中运行,则为GBK编码,并且中文也必须是GBK编码才可正常显示,不然报错。windows
3.选择一款好的IDE,设置一款独特的凸显品味的字体与配色,可以让初学者前期愉快地被编码问题搞崩,而不是恼火地崩掉,也能帮助你很好的管理代码。(推荐PyCharm,有免费版)函数
import sys reload(sys) sys.setdefaultencoding( "utf-8" )
以上代码将系统编码由ASCII码转为UTF-8编码。reload(sys)是由于import时将setdefaultencoding()方法删除了,因此将其从新载入回来。为何说ascii是系统默认编码,由于当你使用str()给字符串encode或者是unicode()来decode时,都是默认使用了ASCII码,所以常常会报出相似"UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 0"的错误,缘由就是字符串里掺杂了中文,前面说到ascii码是不支持中文的。若是把系统默认编码设置为utf-8,就不会出现这样的问题了哦~
那么,它与脚本开头的"# -*- coding:utf-8 -*-"有什么区别呢,注意,脚本开头的编码申明只是针对在脚本中输入的非英文、数字、符号的字符串如中文,将其存成utf-8的形式,而非系统转码的形式。
当开头设置默认编码时,很容易出现程序运行到setdefaultencoding就默认终止的状况(IDLE下),这时候须要在reload先后加入这个,目的是为了从新定向,防止reload将变量重置:性能
stdout = sys.stdout reload(sys) sys.stdout = stdout
网页抓取时遇到的主要问题,无非是网页源代码中掺杂了为被转义的编码形式,被做为纯文本读了进来,好比这样一个字符串"\u6768\u777f",不管怎么print 它都是这个形式由于它是文本,不是编码,那么怎么转为中文呢,则须要用以下命令:字体
print text.decode('unicode_escape')
很是生动形象的,这句话至关因而把“逃离”掉的unicode编码进行再编码,因而就获得了咱们想要的中文。
一样,有的网页中的文字是以反斜杠加三个数字形式呈现的,这个是标准的八进制字符串,如"\345\244\247",则表示一个中文字;而utf-8的表现形式为16进制字符串,像"\xe6\x9d\xa8"就表明着一个字 ,对于这些字符,只须要使用以下命令便可从文本转为编码字符串:
print text.decode('string_escape')