使用Scrapy采集

时间 2021-07-14

原文原文链接

1、有些站点通过robot协议，防止scrapy爬取，就会出现如下问题： DEBUG: Forbidden by robots.txt: <GET http://baike.baidu.com/lishi/> 解决方案：settings.py 文件中：ROBOTSTXT_OBEY = False（默认为true） 2、shell中执行爬虫会看到很多乱七八糟的日志输入 3、爬虫执行日志输出到指定文