RedisSpider的调度队列实现过程及其源码

时间 2021-01-09

原文原文链接

对于非分布式的scrapy爬虫而言，不能共享爬虫队列，不能实现分布式。RedisSpider是依赖Redis存储中介，来实现多台主机多爬虫之间的通信，RedisSpider是去重是内部的queue.py文件实现的，内部实现了队列、堆栈、优先级队列，在调度的统一协调下最终实现分布式协同工作。 queue.py的源码 from scrapy.utils.reqser import request_to