Python爬虫解决乱码问题

时间 2020-10-06

标签 html web 浏览器 svg 编码 url code xml htm blog 栏目 Python 繁體版

原文原文链接

问题缘由：爬取的全部网页不管何种编码格式，都转化为utf-8格式进行存储，与源代码编码格式不一样因此出现乱码。html 目前大部分都是utf-8格式，一部分是gbk格式或者（会出现乱码），还有一些不常见的，好比Windows-1254，UTF-8-SIG等这里不作讨论。国内网页尚未看到别的编码格式，欢迎补充指正！web 简单科普一下：　　 UTF-8通用性比较好，是用以解决国际上字符的一种多字节

>>阅读原文<<