爬虫去重策略

时间 2019-12-07

标签爬虫策略栏目网络爬虫繁體版

原文原文链接

一、将访问过的url保存到数据库中。（效率很是低）数据库

二、将访问过的url保存到set中，只须要o(1)的代价就能够查询url。（内存占用大）（1亿条url占用6个G）scrapy

三、url通过md5等方法哈希后保存到set中（md5压缩url，下降内存）（scrapy使用的去重相似这种，1亿条url占用1个G）函数

四、用bitmap，将访问过的url经过hash函数映射到某一位。（经过0 1来判断，可是可能会发生冲突，多个url可能会映射到同一位）url

五、bloomfilter方法对bitmap进行改进，多重hash函数下降冲突的可能性（1亿条url只占用12M左右）内存

相关文章

相关标签/搜索

爬虫－反爬虫

Docker命令大全

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<