关于位图与布隆过滤器

情境引入 一个文件有100亿个字符串(不重复),每个字符串为64个字节,现在要实现一个黑名单系统,该文件所有字符串加载到该黑名单中,当输入一个字符串时,系统需给出该字符串是否在黑名单上。 (类似应用场景:爬虫去重,比如开一定数量的爬虫,需要爬虫爬取不同的内容,即每个爬虫爬之前都要去名单上查询该地址是否爬过,没爬过就爬取并将其记录到名单上。) 分析: (1)若单纯用哈希表,那么100*64 = 64
相关文章
相关标签/搜索