【Scrapy】迭代爬取时，报错 Filtered offsite request

时间 2019-11-13

标签 Scrapy 迭代报错 filtered offsite request 栏目 Python 繁體版

原文原文链接

scrapy日志：dom

在 setting.py 文件中设置日志记录等级scrapy

LOG_LEVEL= 'DEBUG'

LOG_FILE ='log.txt'

观察 scrapy 日志ide

2017-01-01 11:11:13 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'blog.sina.com.cn': <GET http://blog.sina.com.cn/lm/sports/basketball/>

由于 Request中请求的 URL 和 allowed_domains 中定义的域名冲突，因此将Request中请求的URL过滤掉了，没法请求url

name = 'sinaNBA'
	allowed_domains = ['sina.com']
	start_urls=['http://sports.sina.com.cn/nba/']

在 Request 请求参数中，设置 dont_filter = True ,Request 中请求的 URL 将不经过 allowed_domains 过滤。日志

yield Request(link_sel,callback=self.parse,dont_filter=True)