布隆过滤器的原理及应用

时间 2021-08-12

标签缓存安全数据结构函数性能 3d 对象 blog hash 栏目系统安全繁體版

原文原文链接

布隆过滤器是1970年由布隆提出的。他实际上是一个很长的二进制向量外加一系列的随机函数函数来组成。缓存

在正式说到布隆过滤器时，咱们要先聊这样一个话题：
在解决工程类问题时，不少问题的回答并非只有这两种布尔状态：
是 or 否
而多是这两种状态：
必定没有 or 可能有
亦或者多是这两种状态：
必定有 or 可能没有安全

针对以上的背景，咱们来举这样一个例子：
已知：
从火车站打车到机场，12点出发，在不堵车的状况下，耗时约50分钟
问题1，若是12点打车出发的话，12点10分会到么？
答：必定不会
问题2，若是12点打车出发的话，12点50会到么？
答：不必定会
针对于问题1，问题2的回答，对咱们来讲也是有帮助的，并非说毫无用处。
好比你要给司机打电话，询问是否到达机场，12点10分你确定不会打电话，这样的问题没有意义，还可能会影响司机的驾驶，而12点50你可能就会打电话了，由于这时候大几率是已经到了。
布隆过滤器就是这样的一种数据结构，他不像set或者map等断定是某样东西在或者不在，
而是用来断定某样东西在集合中：
1，必定不存在
2，可能存在
下面咱们来给出一个布隆过滤器的简单实现：数据结构

如上图
第一步，像hashmap同样，咱们须要准备一个长度为N的桶
第二步，准备三个hash方法，他们会根据传入对象的key，计算出一个index值
第三步，根据计算获得的3个index值，将桶上对应的位置的值设置为1
这样一个布隆过滤器就算作好了。
如何使用呢？函数

如图，咱们先对对象A进行hash运算，得出3个index值，更新到桶中性能

接着咱们可能还会添加不一样的对象到桶中，像下图这个样子：3d

而后咱们依次对要检测的对象A、B、C 进行hash1()，hash2() ,hash3()的运算，再根据运算结果匹配桶中相应位置的值时候为1，从而得出下边这张图，对象

好比在桶中，blog

index：1 （为1）3（为1）6（为0），所以对象B必定不存在hash

index：1 （为1）3（为1）5（为1），所以A对象可能存在it

这样作对咱们实际业务有什么用呢？换句话说布隆过滤器有什么应用场景呢？
在回答这个问题以前，咱们要首先明确一点，布隆过滤器不是业务数据的缓存，只是一个用来判断数据不存在性的缓存，
因此咱们才将其称为布隆过滤器，而不是布隆缓存。
所以咱们能够将其做为一个后期须要复杂操做的一个前置过滤判断，如：
一、底层的查询逻辑很是复杂，并且性能低下，能够经过布隆过滤器先过滤掉一批请求，下降后台压力。
二、白名单安全校验：若是过滤器中断定不存在的数据能够直接设定为安全数据，直接进行安全操做，不然才会近一步的进行安全管控。

若是数据的存在性发生变化，布隆过滤器是否容许对添加过的元素删除？

传统的布隆过滤器是不容许删除的！
缘由以下：
一、没法肯定元素是否存在，若是是可能存在的结果，此时会致使误删。
二、即便真的肯定元素是存在的，也没法删除。由于不肯定对应的value是否也存在其余元素的映射。

应该如何设置hash函数的个数和布隆过滤器的长度呢？
很显然，若是布隆过滤器的长度设置的太小的话，很快全部的位置都会为1，此时过滤的结果都是可能存在，
模糊结果的几率就会加大。若是设置的过大的话，则大部分空间都是0，此时又浪费了空间。
就像hashmap同样，一方面要作到不浪费空间，另一方面要作到尽量的下降碰撞。
因此咱们须要根据hash 的个数，过滤器的长度，可能存在的元素的数量，对模糊结果的几率（误判率）得出一个估算。
整体的形式以下：
上图是误判率的计算公式。
下图是对应的几率曲线。

k为hash公式个数，m为桶数，p为误判率的，n表明数据量

这里还有一些其余方面的问题：

一、布隆过滤器是否是更浪费空间？

并无，传统过滤器的桶是使用bit来存值的，每一个槽位只占用一个1个bit位

二、多个hash以前的计算有重叠怎么办，好比hash1和hash2的运算结果相同，这样就会使碰撞的几率变大？

这里能够采用每一个hash值对应一个单独的小桶（或大桶的一部分）来存放，去除掉结果重复的影响。