Scrapy如何借助于BloomFilter实现增量爬取

1、增量爬取的思路:即保存上一次状态,本次抓取时与上次比对,若是不在上次的状态中,便视为增量,保存下来。对于scrapy来讲,上一次的状态是抓取的特征数据和上次爬取的 request队列(url列表),request队列能够经过request队列能够经过scrapy.core.scheduler的pending_requests成员获得,在爬虫启动时导入上次爬取的特征数据,而且用上次request
相关文章
相关标签/搜索