什么是布隆过滤器

在网络爬虫中,经常需要确认一个网址是否已经访问过,这样可以节约资源,减少不必要的开销。有一个最直接的方法就是将集合中的全部元素存入计算机,每遇到一个新元素,将它和集合中的元素直接比较即可。 把已访问过的url存入哈希表(Hash Table)中,当需要判断当前url是否已经访问时可以访问哈希表,如果存在则表明已经访问过。其优点是快速准确,缺点也显而易见,耗费了大量的存储空间,尤其是当集合规模巨大的
相关文章
相关标签/搜索