Bloom Filter 算法具体解释

Bloom Filter 算法

Bloom filter是由Burton Bloom 在1970年提出的,其后在P2P上获得了普遍的应用。Bloom filter 算法可用来查询某一数据是否在某一数据集合中。其长处是查询效率高、可节省空间。但其缺点是会存在必定的错误。所以Bloom filter 算法仅仅能应用于那些赞成有必定错误的场合。可以使用Bloom filter 算法的场合包含字典软件、分布式缓存、P2P网络和资源路由等等。web

使用Bloom Filter咱们可以推断一个元素是否在某一个集合中。假设这个集合是使用线性结构存储的话。其查找的时间复杂度是O(n);使用像二叉树或B-tree这种树形结构存储的话其查找的时间复杂度是O(logn)。而使用Bloom Filter在可以容忍必定错误率的状况下,其时间复杂度是O(1)。所以,与传统的权衡空间或时间的算法不一样,Bloom Filter 极其巧妙。经过引入必定的错误率来换取时间和空间,在某些应用大大提升了性能。算法

Bloom Filter 算法应用

使用Bloom Filter算法查找某个元素是否属于某个集合是常数时间,而且Bloom Filter使用的是位数组,大大下降了空间。数据库

尽管有必定的错误率。但对于那些赞成有必定错误的场合则十分有效。数组

使用Bloom Filter还可以进行垃圾邮件过滤。因为垃圾邮件的数量是很巨大的。假设将全部的垃圾邮件的地址都存到数据库再进行垃圾邮件过滤,则其性能会很低下。缓存

此时假设经过垃圾邮件的地址建立Bloom Filter,并把Bloom Filter的位数组放到内存中,那么在进行垃圾邮件过滤时就很高效了。markdown

在HTTP缓存server中。可以使用Bloom Filter来加快推断Url是否在代理server的缓存中。网络

在代理server中,首先用缓存页面的Url经过哈希算法建立一个Bloom Filter的位数组。分布式

假设有多个代理server。还可以将本身的位数组传送给其余代理server,以加快缓存查询速度。当有HTTP请求来时。就先在代理server中查看是否有此Url的缓存,假设没有,则查看是否在其余代理server中。再没有的话才会去主server提取页面。可以看出,使用Bloom Filter查询某Url是否在缓存中很快,假设出现错误的状况则最多到主server提取页面。而且因为Bloom Filter大大下降了空间的使用,使其在网络上传输更加高速。函数

在web爬虫中,也可以使用Bloom Filter。当web爬虫处理了一个页面时,首先会经过Bloom Filter推断这个页面是否已经处理过,假设没处理过就对其进行处理并将其加到Bloom Filter中。在web爬虫假设出现误判,则最多对同一个Url多处理几回,并不影响web爬虫的性能。经过Bloom Filter反而大大提升了web爬虫的性能。性能

总而言之。Bloom Filter近些年来获得了普遍的应用,经过使用Bloom Filter可以加快对海量数据的查询,提升应用的性能。

Bloom Filter算法思想

Bloom Filter算法就是对于有n个元素的集合S={x1, x2,……,xn},咱们用k个哈希函数(h1,h2,……,hn),分别将S中的每个元素映射到一个m位的位数组(bm-1bm-2……b1b0)中。该位数组在初始化时全部置为0,每当用哈希函数映射到该位时则将该位置为1。对于已经置为1的位则不在反复置1。

好比。将S={x1,x2,x3}这个集合用3个哈希函数映射到一个14位的位数组中,如图所看到的:

建立Bloom Filter演示样例

可以看出。假设要查找一个元素是否在这个集合中。则仅仅要将该元素进行k次哈希。假设其相应的位全部为1的话则说明该元素在这个集合中。不然,仅仅要有当中一位为0。则说明该元素不在这个集合中。

如图所看到的,x2在集合中,而x4不在集合中。

查找Bloom Filter演示样例

Bloom Filter会产生错误也就是因为对某个元素进行k次哈希后相应的位全部为1,所以错误地将这个元素断定为在这个集合中,但实际上这个元素并不在这个集合中。如图所看到的。x5实际并不是这个集合的元素:

查找Bloom Filter出错演示样例

要将一个元素增长这个集合很easy,仅仅要将这个元素进行k次哈希后将相应的位置1便可了。

但假设要从这个集合中删除一个元素,那么使用上面的位数组就不行了。因为假设仅仅是简单地将k次哈希后相应的位置0,而其余在这个集合中的元素也可能会映射到该位,这样这个集合就出错了。

所以,对于要进行删除的状况,则应该使用Bloom Filter的变体算法:计数Bloom Filter。


计数Bloom Filter位数组的每个元素并不是仅仅有1位。而多是2位或不少其余位(视状况而定)。如图就是使用2位位数组的样例:

建立计数Bloom Filter演示样例

在这种状况下,假设要删除一个元素,则仅仅要将相应位的计数减1便可了。

删除了x2以后如图所看到的:

删除一个计数Bloom Filter元素演示样例

Bloom Filter算法分析

现在来分析一下标准的Bloom Filter的错误率。

刚開始时,m位的位数组初化为0,进行一次哈希并设某一位为1后位数组中某一位为0的几率为:(m-1)/m。而当对n个元素进行k次哈希后位数组中某一位为0的几率为:
p = ((m-1)/m)kn = (1 – 1/m)kn,

一个不在集合中的元素进行k次哈希后相应的位都为1。所以,Bloom Filter的错误率为:
f = (1 – (1 - 1/m)kn)k ,

因为
公式

所以:
p = (1 – 1/m)kn = e-kn/m
即 k = -m·ln(p)/n,
f = (1 – e-kn/m)k
= exp(ln(1-e-kn/m)k)
= exp(kln(1-e-kn/m))
= exp(-m·ln(p)·ln(1-p)/n)

因为exp(x)是一个递增函数,为了使错误率f最小。那么-m·ln(p)·ln(1-p)/n就应该取最小值。

依据对称性法则可以看出。当p = 1/2时-m·ln(p)·ln(1-p)/n取得最小值,即k = -m·ln(p)/n = m·ln2 / n。

因此当哈希函数的个数k = m·ln2 / n时,可以使得错误率最小。

又因为p=1/2是对n个元素进行k次哈希后位数组中某一位为0的几率,此时位数组中0和1各占一半。即当让位数组有一半是空的时,可以使错误率最低。

相关文章
相关标签/搜索