scrapy通过自定义类给爬取的url去重

之前我们是通过在parse函数里设置集合来解决url去重的问题。 首先先在根目录中建立一个新的duplication的py文件,在from scrapy.dupefilter import RFPDupeFilter,在RFPDupeFilter源码中把BaseDupeFilter类复制到新建的duolication中。 class RepeatFilter(object): def __
相关文章
相关标签/搜索