RedisSpider的调度队列实现过程及其源码

对于非分布式的scrapy爬虫而言,不能共享爬虫队列,不能实现分布式。RedisSpider是依赖Redis存储中介,来实现多台主机多爬虫之间的通信,RedisSpider是去重是内部的queue.py文件实现的,内部实现了队列、堆栈、优先级队列,在调度的统一协调下最终实现分布式协同工作。 queue.py的源码 from scrapy.utils.reqser import request_to
相关文章
相关标签/搜索