Java网络爬虫（九）--海量URL去重之布隆过滤器

时间 2020-01-13

标签 java 网络爬虫海量 url 过滤器栏目 Java 繁體版

原文原文链接

简介布隆过滤器当咱们要对海量URL进行抓取的时候，咱们经常关心一件事，就是URL的去重问题，对已经抓取过的URL咱们不须要在进行从新抓取。在进行URL去重的时候，咱们的基本思路是将拿到的URL与已经抓取过的URL队列进行比对，看当前URL是否在此队列中，若是在已抓取过的队列中，则将此URL进行舍弃，若是没有在，则对此URL进行抓取。看到这，若是有哈希表基础的同窗，很天然的就会想到那么若是用哈希表

>>阅读原文<<