使用BloomFilter优化scrapy-redis去重

使用BloomFilter优化scrapy-redis去重 1. 背景 作爬虫的都知道,scrapy是一个很是好用的爬虫框架,可是scrapy吃内存很是的厉害。其中有个很关键的点就在于去重。 “去重”须要考虑三个问题:去重的速度和去重的数据量大小,以及持久化存储来保证爬虫可以续爬。 去重的速度:为了保证较高的去重速度,通常是将去重放到内存中来作的。例如python内置的set( ),redis的s
相关文章
相关标签/搜索