一开始直接输出获取到的数据,显示为b'<title>\xc3\xc0\xb9\xc9\xca\xb5\xca\xb1\xd0\xd0\xc7\xe9_\xd0\xc2\xc0\xcb\xb2\xc6\xbe\xad_\xd0\xc2\xc0\xcb\xcd\xf8</title>\n'
html
看了下网页内容的头部,发现编码格式应该为gb2312python
b'<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />\n'
根据搜索到的编码方法修改data,web
data = unicode(data,'gb2312')
发现报错提示没有unicode这个语法,继续搜,原来是python3重命名其为str
ok,unicode改成strsvg
data = str(data,'gb2312')
显示正常ui
<title>美股实时行情_新浪财经_新浪网</title>
中间尝试了别的方法,好比编码
data.decode('unicode-escape')
直接乱码code
<title>ÃÀ¹ÉʵʱÐÐÇé_ÐÂÀ˲ƾ_ÐÂÀËÍø</title>
原来xml
decode(‘unicode-escape’)htm
是用于unicode反向解码的,unicode编码格式以下blog
\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E'
总结:
一、python2和python3不少模块合并,重命名,难以区分,因此网上找到的代码仍是不要随便套用,版本声明的重要性啊
二、编码格式确实比较困扰,多接触发现规律一直在,之前本身没有仔细甄别吧