爬取网页是发现文本乱码问题

时间 2021-01-18

原文原文链接

这两天开始学习爬虫，发现爬取网站时，爬下来的源码里面的文本内容乱码，奇怪的是有的网站没有乱码，有的网站乱码了，查找资料时发现，这是由于每个网站的编码方式差异造成的。这个是爬取内涵段子时的源代码，当打印网页源代码时，发现文本信息乱码：然后我又试了下csdn的网站：发现文本信息并没有乱码在网上查找资料知道，每个网站的编码方式不一样，查看每个网址的编码方式可以打开浏览器的管理者工具来查看，以

>>阅读原文<<