转载自:焦萌 2007年1月30日 数组
【http://blog.csdn.net/jiaomeng】数据结构
从前面几篇对Bloom Filter的介绍能够看出,标准的Bloom Filter是一种很简单的数据结构,它只支持插入和查找两种操做。在所要表达的集合是静态集合的时候,标准Bloom Filter能够很好地工做,可是若是要表达的集合常常变更,标准Bloom Filter的弊端就显现出来了,由于它不支持删除操做。ide
Counting Bloom Filter的出现解决了这个问题,它将标准Bloom Filter位数组的每一位扩展为一个小的计数器(Counter),在插入元素时给对应的k(k为哈希函数个数)个Counter的值分别加1,删除元素时给对应的k个Counter的值分别减1。Counting Bloom Filter经过多占用几倍的存储空间的代价,给Bloom Filter增长了删除操做。下一个问题天然就是,到底要多占用几倍呢?函数
咱们先计算第i个Counter被增长j次的几率,其中n为集合元素个数,k为哈希函数个数,m为Counter个数(对应着原来位数组的大小):spa
上面等式右端的表达式中,前一部分表示从nk次哈希中选择j次,中间部分表示j次哈希都选中了第i个Counter,后一部分表示其它nk – j次哈希都没有选中第i个Counter。所以,第i个Counter的值大于j的几率能够限定为:.net
上式第二步缩放中应用了估计阶乘的斯特林公式:orm
在Bloom Filter概念和原理一文中,咱们提到过k的最优值为(ln2)m/n,如今咱们限制k ≤ (ln2)m/n,就能够获得以下结论:blog
若是每一个Counter分配4位,那么当Counter的值达到16时就会溢出。这个几率为:get
这个值足够小,所以对于大多数应用程序来讲,4位就足够了。it
关于Counting Bloom Filter最先的论文:Summary Cache: A Scalable Wide-Area Web Cache Sharing Protocol