爬取网页是发现文本乱码问题

这两天开始学习爬虫,发现爬取网站时,爬下来的源码里面的文本内容乱码,奇怪的是有的网站没有乱码,有的网站乱码了,查找资料时发现,这是由于每个网站的编码方式差异造成的。   这个是爬取内涵段子时的源代码,当打印网页源代码时,发现文本信息乱码: 然后我又试了下csdn的网站: 发现文本信息并没有乱码 在网上查找资料知道,每个网站的编码方式不一样,查看每个网址的编码方式可以打开浏览器的管理者工具来查看,以
相关文章
相关标签/搜索