Python爬虫解决乱码问题

问题缘由: 爬取的全部网页不管何种编码格式,都转化为utf-8格式进行存储,与源代码编码格式不一样因此出现乱码。html 目前大部分都是utf-8格式,一部分是gbk格式或者(会出现乱码),还有一些不常见的,好比Windows-1254,UTF-8-SIG等这里不作讨论。国内网页尚未看到别的编码格式,欢迎补充指正!web 简单科普一下:   UTF-8通用性比较好,是用以解决国际上字符的一种多字节
相关文章
相关标签/搜索