布隆过滤器BloomFilter原理剖析

场景: 不安全网页的黑名单包含100亿个黑名单网页,每一个网页URL最多占用64B。如今设计系统根据网页URL判断该网页是否在黑名单上。java 要求:该系统容许万分之一如下的判断失误率,且使用的额外空间不要超过30GB。程序员 分析:若是单纯经过数据库或者哈希表来保存下来,须要640G的空间,不知足要求。面试 遇到网页黑名单系统、垃圾邮件过滤系统、爬虫的网址判重系统、两份URL文件的重复URL等
相关文章
相关标签/搜索