python爬虫scrapy之如何同时执行多个scrapy爬行任务

时间 2019-11-24

标签 python 爬虫 scrapy 如何同时执行多个爬行任务栏目 Python 繁體版

原文原文链接

背景：python

　　刚开始学习scrapy爬虫框架的时候，就在想若是我在服务器上执行一个爬虫任务的话，还说的过去。可是我不能每一个爬虫任务就新建一个项目吧。例如我创建了一个知乎的爬行任务，可是我在这个爬行任务中，写了多个spider，重要的是我想让他们同时运行，怎么办？服务器

小白解决办法：框架

　　一、在spiders同目录下新建一个run.py文件，内容以下（列表里面最后能够加上参数，如--nolog）scrapy

　　二、小白想了（当时的我），这样也行，mygod，那我岂不是多写几行就行就好了么，结果（结果白痴了），小白又想，那加个while循环，把爬虫名字都写入一个列表，这样循环拿到每一个spiders的name，结果更惨。ide

　　三、下面命令只限于，快速调试的做用或一个项目下单个spider的爬行任务。学习

from scrapy.cmdline import execute

execute(['scrapy','crawl','httpbin'])

经过学习才知道原来是这样子：ui

　　一、在spiders同级建立任意目录，如：commandsspa

　　二、在其中建立 crawlall.py 文件（此处文件名就是自定义的命令）调试

crawlall.py

from scrapy.commands import ScrapyCommand
from scrapy.utils.project import get_project_settings


class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):
        return '[options]'

    def short_desc(self):
        return 'Runs all of the spiders'

    def run(self, args, opts):
        spider_list = self.crawler_process.spiders.list()
        for name in spider_list:
            self.crawler_process.crawl(name, **opts.__dict__)
        self.crawler_process.start()

　　三、到这里还没完，settings.py配置文件还须要加一条。code

　　COMMANDS_MODULE = ‘项目名称.目录名称’　

COMMANDS_MODULE = 'zhihuuser.commands'

　　四、那么问题来了，若是我在spiders写了多个爬行任务，我上面说了这么多，我最终须要怎么执行，so easy！你能够直接把下面这个命令放到计划任务里面，就好了。

scrapy crawlall