布隆过滤器(Bloom Filter) 未完待续

时间 2019-12-11

标签过滤器 bloom filter 未完待续繁體版

原文原文链接

布隆过滤器雏形

未完待续.....数组

计算错误率

如今有一个空额布隆过滤器, 过滤器里的bit array的大小是m. 咱来插入一个元素. 此次插入过程当中的第一个hash函数会算出一个位置, 而后把这个位置设置为1. 此时若是在这个过滤器中随机选取一个位置, 这个位置的值是1的几率为:函数

(式①)spa

这个位置的值是0的几率为:.net

(式②)3d

插入这个元素须要进行k个hash运算, 而后把相应的位置的值都改成1. 这个元素插入完以后, 从这个过滤器中, 随机取一个位置, 这个位置的值是0的几率为:xml

(式③)blog

这个位置的值是1的几率为:数学

(式④)hash

若是在这个布隆过滤器中, 插入了n个元素. 而后随机取其中一个位置, 这个位置的值是0的几率为:it

(式⑤)

这个位置的值是1的几率为:

(式⑥)

如今这个布隆过滤器里有n个元素. 如今来了一个新元素. 这个新元素用k个hash函数, 分别计算了hash值, 结果k个位置在以前就已经被设置为了1. 这就是错误了, 把不存在于集合中的元素, 判断为了在集合中, 被称为假阳性. 这种状况的几率是:

(式⑦)

上面式子整理一下指数nk, 就等价于下面这个式子:

(式⑧)

这是一个极限公式:

上面的式⑧能够根据这个极限公式, 转化为下面这个式子:

(式⑨)

函数 f 就是误判率了.

最优的哈希函数个数

根据上面这个公式, 能够将 f 转化为:

(式⑩)

式10的表达式太长了...我们引入两个新的符号p 和 g :

我们回到话题"最优的hash函数个数k".

k是自变量, f是因变量. 让 f 取值最小的那个k值, 就是最有解. 也就是最优的hash函数个数.

让f最小, 也能够转化为: 让g最小. 因此我们求一下"令g值最小的k值"

(式⑪)

把上面这个k带入到g中, 能够获得:

想让g取最小值, 其实就是让 ln(p) * ln(1-p) 取最大值.

当p = 1/2 时 . ln(p) * ln(1-p) 取最大值. 也就是 g 取最小值. 也就是 f 取最小值.

将 p = 1/2 带入式11, 得:

位数组的大小

我们模拟一个场景: 使用布隆过滤器来作URL的过滤. 将含有不良信息的URL做为黑名单, 存入到布隆过滤器中, 进行过滤.

咱么假设全世界有u个URL. 其中有n个是含有不良信息的. 布隆过滤器的 `位数组` 的大小是m.

我们把这n个黑名单URL插入到布隆过滤器中.

这n个URL, 在被访问时, 会直接被布隆过滤器断定为含有不良信息的URL.

可是若是布隆过滤器的误判率是ϵ的话, 那么会有 ϵ*(u - n) 个元素, 明明是正常的URL, 却会被布隆过滤器认定为是含有不良信息的URL.

在这个场景中, 布隆过滤器的做用就是判断URL, 判断并过滤掉有不良信息的URL. 他会正确地判断出n个黑名单URL, 还会误判ϵ*(u - n) 个URL.

因此这个布隆过滤器, 会过滤 n + ϵ*(u - n) 个URL. 而当前的布隆过滤器中, 实际只有n个元素.

因此当前的布隆过滤器的`位数组`的状态, 能够表示的集合数量为:

(式⑫)

式⑫只是在刚才的那个特定条件下的`位数组`能够表示的集合数量.

若是我们改变布隆过滤器的其中一个位. 那么此时就表示了新的ω个集合.

$m$

全集中 $n$

$n$

要让 $m$

$m$

整理一下, 也就是:

若是n 远小于 ε·u

(式⑬)

接下来我们对于上式中的真数进行计算:

因此, 式⑬中的:

因而咱们得出结论1 : 在错误率不大于 $ϵ$

在计算错误率的小节中, 最后得出了式⑨:

在计算最优函数个数的小节中, 定义了:

并且在最后p = 1/2 时, 为最优函数个数.

又根据上面小节的式⑪:

在取最优函数个数的时候:

我们令 f ≤ ε

其中

因而咱们有了结论2: 若是想采用最优函数个数, 那么m值就得是结论1的 1.44倍.

总结一下结论1 和结论2 :

若是想保证错误率不大于ε. 那么就m的最小值就得是

若是hash函数的个数想取最优值, 那么m的最小值就得是

(式①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯)

[1].<<数学之美>>第23章. 做者: 吴军

[2].https://blog.csdn.net/maoke2005191/article/details/78977277