先说报错缘由:使用了和start_urls
同名的参数python
我经过scral crawl projename -a start_urls=http:example.com
来传start_urls,而后想在项目中初始化spider类的时候,添加抓取URL,代码以下:app
class xxxxSpider(CrawlSpider): name = 'xxxx' allowed_domains = ['xxxx.gov.cn'] start_urls = [ ] rules = ( Rule(LinkExtractor(allow=(r'page=\d+',))), Rule(LinkExtractor(allow=('unid',)), callback='parse_item', follow=False), ) def __init__(self, *a, **kw): self.start_urls.append(kw.get('start_url')) super(CrawlSpider, self).__init__(*a, **kw) self._compile_rules()
按理来讲,并无覆盖self.start_urls
,可是没法经过校验,启动时报错dom
raise ValueError('Missing scheme in request url: %s' % self._url)ide
解决办法:把参数名改为别的就好了,不要使用start_urls
。我猜应该是项目初始化的过程当中使用了这个名字做为参数,而后我给他覆盖了。url