网页数据爬取中文乱码处理--编码问题

时间 2021-01-05

原文原文链接

自学爬虫有一段时间了，期间总是觉得内容编码会傻傻分不清楚，尤其是直接网页拿数据的时候，遇见中文有时候特别麻烦，看大神介绍的东西太多，只记下了处理方式，仅供参考，不对地方欢迎大家指正~~ 一般请求返回内容编码方式步骤如下： 1、查看数据源网页的编码形式--爬取数据所在网页源代码就有写： 2、编码解析： respond.decode(请求返回的编码格式).encode(Python默认的utf-8)

>>阅读原文<<