Java网络爬虫(九)--海量URL去重之布隆过滤器

简介布隆过滤器 当咱们要对海量URL进行抓取的时候,咱们经常关心一件事,就是URL的去重问题,对已经抓取过的URL咱们不须要在进行从新抓取。在进行URL去重的时候,咱们的基本思路是将拿到的URL与已经抓取过的URL队列进行比对,看当前URL是否在此队列中,若是在已抓取过的队列中,则将此URL进行舍弃,若是没有在,则对此URL进行抓取。看到这,若是有哈希表基础的同窗,很天然的就会想到那么若是用哈希表
相关文章
相关标签/搜索