python3爬虫中文乱码问题

python3爬虫中文乱码问题

一开始直接输出获取到的数据,显示为b'<title>\xc3\xc0\xb9\xc9\xca\xb5\xca\xb1\xd0\xd0\xc7\xe9_\xd0\xc2\xc0\xcb\xb2\xc6\xbe\xad_\xd0\xc2\xc0\xcb\xcd\xf8</title>\n'html

看了下网页内容的头部,发现编码格式应该为gb2312python

b'<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />\n'

根据搜索到的编码方法修改data,web

data = unicode(data,'gb2312')

发现报错提示没有unicode这个语法,继续搜,原来是python3重命名其为str
在这里插入图片描述
ok,unicode改成strsvg

data = str(data,'gb2312')

显示正常ui

<title>美股实时行情_新浪财经_新浪网</title>

中间尝试了别的方法,好比编码

data.decode('unicode-escape')

直接乱码code

<title>ÃÀ¹ÉʵʱÐÐÇé_ÐÂÀ˲ƾ­_ÐÂÀËÍø</title>

原来xml

decode(‘unicode-escape’)htm

是用于unicode反向解码的,unicode编码格式以下blog

\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E'

总结:
一、python2和python3不少模块合并,重命名,难以区分,因此网上找到的代码仍是不要随便套用,版本声明的重要性啊
二、编码格式确实比较困扰,多接触发现规律一直在,之前本身没有仔细甄别吧在这里插入图片描述