背景:python
刚开始学习scrapy爬虫框架的时候,就在想若是我在服务器上执行一个爬虫任务的话,还说的过去。可是我不能每一个爬虫任务就新建一个项目吧。例如我创建了一个知乎的爬行任务,可是我在这个爬行任务中,写了多个spider,重要的是我想让他们同时运行,怎么办?服务器
小白解决办法:框架
一、在spiders同目录下新建一个run.py文件,内容以下(列表里面最后能够加上参数,如--nolog)scrapy
二、小白想了(当时的我),这样也行,mygod,那我岂不是多写几行就行就好了么,结果(结果白痴了),小白又想,那加个while循环,把爬虫名字都写入一个列表,这样循环拿到每一个spiders的name,结果更惨。ide
三、下面命令只限于,快速调试的做用或一个项目下单个spider的爬行任务。学习
from scrapy.cmdline import execute execute(['scrapy','crawl','httpbin'])
经过学习才知道原来是这样子:ui
一、在spiders同级建立任意目录,如:commandsspa
二、在其中建立 crawlall.py 文件 (此处文件名就是自定义的命令)调试
crawlall.py
from scrapy.commands import ScrapyCommand from scrapy.utils.project import get_project_settings class Command(ScrapyCommand): requires_project = True def syntax(self): return '[options]' def short_desc(self): return 'Runs all of the spiders' def run(self, args, opts): spider_list = self.crawler_process.spiders.list() for name in spider_list: self.crawler_process.crawl(name, **opts.__dict__) self.crawler_process.start()
三、到这里还没完,settings.py配置文件还须要加一条。code
COMMANDS_MODULE = ‘项目名称.目录名称’
COMMANDS_MODULE = 'zhihuuser.commands'
四、那么问题来了,若是我在spiders写了多个爬行任务,我上面说了这么多,我最终须要怎么执行,so easy!你能够直接把下面这个命令放到计划任务里面,就好了。
scrapy crawlall