scrapy分布式去重组件源码及其实现过程

scrapy_redis在继承scrapy去重组件的基础上覆盖了某些方法,原scrapy去重是基于单机情况下的内部去重,但是分布式是多机条件下的多爬虫协同去重,因此需要让不同及其上的同一个爬虫能够在同一个地方进行去重,这就是Redis的集合。 先看看scrapy_redis 去重组件dupefilter的源码: import logging import time from scrapy.dupe
相关文章
相关标签/搜索