从网页获取数据

时间 2021-01-08

原文原文链接

有的网站会提供一个爬虫协议文件robots.txt 例如豆瓣的爬虫协议：https://www.douban.com/robots.txt 这里我们要对《小王子》的豆瓣评论进行抓取，需要用到的是subject这个目录，在豆瓣网页的爬虫协议中，并没有禁止这项操作。 200表示一切正常抓取源代码：注： 1、响应内容是二进制，要用r.content 来解码（比如抓取图片时，生成的数据是二进制码） 2