爬虫出现Forbidden by robots.txt

先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False便可解决。 使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始由于是淘宝页面有什么保密机制,防止爬虫来抓取页面,因而在spider中填入各类header信息,假装成浏览器,结果仍是不行。。。用
相关文章
相关标签/搜索