Counting Bloom Filter【ZZ】

Counting Bloom Filter

转载自:焦萌 2007130 数组

【http://blog.csdn.net/jiaomeng】数据结构

 

从前面几篇对Bloom Filter的介绍能够看出,标准的Bloom Filter是一种很简单的数据结构,它只支持插入和查找两种操做。在所要表达的集合是静态集合的时候,标准Bloom Filter能够很好地工做,可是若是要表达的集合常常变更,标准Bloom Filter的弊端就显现出来了,由于它不支持删除操做。ide

 

Counting Bloom Filter的出现解决了这个问题,它将标准Bloom Filter位数组的每一位扩展为一个小的计数器(Counter),在插入元素时给对应的kk为哈希函数个数)个Counter的值分别加1,删除元素时给对应的kCounter的值分别减1Counting Bloom Filter经过多占用几倍的存储空间的代价,给Bloom Filter增长了删除操做。下一个问题天然就是,到底要多占用几倍呢?函数

 

 

咱们先计算第iCounter被增长j次的几率,其中n为集合元素个数,k为哈希函数个数,mCounter个数(对应着原来位数组的大小):spa

 

上面等式右端的表达式中,前一部分表示从nk次哈希中选择j次,中间部分表示j次哈希都选中了第iCounter,后一部分表示其它nk – j次哈希都没有选中第iCounter。所以,第iCounter的值大于j的几率能够限定为:.net

 

上式第二步缩放中应用了估计阶乘的斯特林公式:orm

 

Bloom Filter概念和原理一文中,咱们提到过k的最优值为(ln2)m/n,如今咱们限制k ≤ (ln2)m/n,就能够获得以下结论:blog

 

若是每一个Counter分配4位,那么当Counter的值达到16时就会溢出。这个几率为:get

 

这个值足够小,所以对于大多数应用程序来讲,4位就足够了。it

 

 关于Counting Bloom Filter最先的论文:Summary Cache: A Scalable Wide-Area Web Cache Sharing Protocol

相关文章
相关标签/搜索