'gbk' codec can't encode character解决方法

时间 2019-12-20

标签 gbk codec can't encode character 解决方法栏目 HTTP/TCP 繁體版

原文原文链接

使用Python写文件的时候，或者将网络数据流写入到本地文件的时候，大部分状况下会遇到：UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position ... 这个问题。网络上有不少相似的文件讲述如何解决这个问题，可是无非就是encode，decode相关的，这是致使该问题出现的真正缘由吗？不是的。不少时候，咱们使用了decode和encode，试遍了各类编码，utf8，utf-8,gbk,gb2312等等，该有的编码都试遍了，但是编译的时候仍然出现： UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position XXX。崩溃了。html

在windows下面编写python脚本，编码问题很严重。python

将网络数据流写入文件时时，咱们会遇到几个编码：windows

1： #encoding='XXX' 这里(也就是python文件第一行的内容)的编码是指该python脚本文件自己的编码，可有可无。只要XXX和文件自己的编码相同就好了。好比notepad++ "格式"菜单里面里能够设置各类编码，这时须要保证该菜单里设置的编码和encoding XXX相同就好了，不一样的话会报错网络

2：网络数据流的编码好比获取网页，那么网络数据流的编码就是网页的编码。须要使用decode解码成unicode编码。编码

3：目标文件的编码要将网络数据流的编码写入到新文件，那么我么须要指定新文件的编码。写文件代码如：spa

复制代码代码以下:

f.write(txt)

，那么txt是一个字符串，它是经过decode解码过的字符串。关键点就要来了：目标文件的编码是致使标题所指问题的罪魁祸首。若是咱们打开一个文件：code

复制代码代码以下:

f = open("out.html","w")

，在windows下面，新文件的默认编码是gbk，这样的话，python解释器会用gbk编码去解析咱们的网络数据流txt，然而txt此时已是decode过的unicode编码，这样的话就会致使解析不了，出现上述问题。解决的办法就是，改变目标文件的编码：htm

复制代码代码以下:

f = open("out.html","w",encoding='utf-8')

。这样，问题将不复存在。utf-8