Redis布隆过滤器

时间 2019-11-07

原文原文链接

关注公众号：xy的技术圈git

场景

在项目开发中，咱们常常会遇到去重问题。好比：判断一我的有没有浏览过一篇文章，判断一我的当天是否登陆过某个系统，判断一个ip是否发过一个请求，等等。github

比较容易想到的是使用set来实现这个功能。但若是数据量较大，使用set会很是消耗内存，性能也不高。在前面的文章中，咱们介绍了一种数据结构：BitMap来提升性能。但BitMap仍然比较消耗内存，尤为是在数据比较稀疏的状况下，使用BitMap并不划算。算法

实际上，对于“去重”问题，业界有另一个更优秀的数据结构来解决这类问题，那就是——布隆过滤器(BloomFilter)。docker

原理

布隆过滤器与BitMap相似，底层也是一个位数组。1表示有，0表示无。但布隆过滤器比BitMap须要更少的内存，它是怎么办到的呢？答案是多个hash。数组

咱们知道hash算法，是把一个数从较大范围的值，映射到较小范围值。好比咱们有一个10位的数组，使用某个hash算法及其数组上的表示：bash

hash(“xy”) = 3;数据结构

hash(“技术圈”) = 5;函数

0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0post

这样，咱们使用这个hash算法就能快速的判断一个字符串是否是存在一个集合里面了。但众所周知，hash算法是有可能发生hash冲突的。好比可能有两个不一样的字符串映射到同一个数：性能

hash(“xy”) = 3;

hash(“xy的技术圈”) = 3;

这种状况下，就不能准确得判断出某个字符串是否是存在于集合之中呢。

那怎么解决这个问题呢？答案是使用多个不一样的hash算法。好比：

h1(“xy”) = 3, h2(“xy”) = 5, h3(“xy”) = 7;

h1(“技术圈”) = 5, h2(“技术圈”) = 6, h3(“技术圈”) = 7;

h1(“xy的技术圈”) = 3, h2(“xy的技术圈”) = 6, h3(“xy的技术圈”) = 9;

最开始，集合里没有元素，全部位都是0：

0, 0, 0, 0, 0, 0, 0, 0, 0, 0

而后，插入“xy”，利用屡次hash，把每次hash的结果下标3, 5, 7都插入到相应的地方：

0, 0, 0, 1, 0, 1, 0, 1, 0, 0

而后，插入“技术圈”，利用屡次hash，把每次hash的结果下标5, 6, 7都插入到相应的地方，已是1的下标不变：

0, 0, 0, 1, 0, 1, 1, 1, 0, 0

这个时候，若是想要判断“xy”是否在集合中，只须要使用一样的3个hash算法，来计算出下标是3, 5, 7，发现这3个下标都为1，那么就认为“xy”这个字符串在集合中。而“xy的技术圈”计算出来的下标是3， 6， 9。发现这三个下标有不是1的地方，好比下标为9的地方是0，那就说明“xy的技术圈”这个字符串还不在集合中。

偏差

从原理能够看得出来，布隆过滤器是有可能存在必定的偏差的。尤为是当hash函数比较少的时候。布隆过滤器是根据屡次hash计算下标后，数组的这些下标是否都为1来判断这个元素是否存在的。因此是存在必定的概率，要检查的元素实际上没有插入，但被其它元素插入影响，致使全部下标都为1。

因此布隆过滤器不能删除，由于一旦删除（即将相应的位置为0），就很大可能会影响其余元素。

若是使用布隆过滤器判断一个函数是否存在于一个集合，若是它返回true，则表明可能存在。若是它返回false，则表明必定不存在。

因而可知，布隆过滤器适合于一些须要去重，但不必定要彻底精确的场景。好比：

判断一个用户访问了一篇文章
判断一个ip访问了本网站
判断一个key是否被访问过

相应的，布隆过滤器不适合一些要求零偏差的场景，好比：

判断一个用户是否收藏了一篇文章
判断一个用户是否订购了一个课程

使用技巧

这就是布隆过滤器的基本原理。由上面的例子能够看出来，若是空间越大，hash函数越多，结果就越精确，但空间效率和查询效率就会越低。

这里有一个测试数据：

后面4列中的数据就是发生偏差的数量。可见，空间大小和集合大小不变的状况下，增长hash函数能够显著减少偏差。但一旦集合大小达到空间大小的25%左右后，增长hash函数带来的提神效果并不明显。这个时候应该增长空间大小。

Redis中的布隆过滤器

Redis的布隆过滤器不是原生自带的，而是要经过module加载进去。Redis在4.0的版本中加入了module功能。具体使用能够直接看RedisBloom github的README：github.com/RedisBloom/…

Redis的布隆过滤器主要有两个命令：

bf.add 添加元素到布隆过滤器中：bf.add strs xy
bf.exists 判断某个元素是否在过滤器中：bf.exists strs xy

Redis中有一个命令能够来设置布隆过滤器的准确率：

bf.reserve strs 0.01 100
复制代码

三个参数的含义：

第一个值是过滤器的名字。
第二个值为error_rate的值：容许布隆过滤器的错误率。
第三个值为initial_size的值：初始化位数组的大小。

扩展学习

Java实现的布隆过滤器

若是你的项目没有使用Redis，那可使用一些开源库，基于代码实现，直接存放在内存。好比Google的guava包中提供了BloomFilter类，有兴趣的读者能够去了解一下，研究研究源码和使用。

布谷鸟过滤器

RedisBloom模块还实现了布谷鸟过滤器，它算是对布隆过滤器的加强版。解决了布隆过滤器的一些比较明显的缺点，好比：不能删除元素，不能计数等。除此以外，布谷鸟过滤器不用使用多个hash函数，因此查询性能更高。除此以外，在相同的误判率下，布谷鸟过滤器的空间利用率要明显高于布隆，空间上大概能节省40%多。

笔者我的以为，对于大多数场景来讲，布隆过滤器足以解决咱们的问题。掘金上有一篇深度分析布谷鸟过滤器的文章，有兴趣的读者能够去了解一下：juejin.im/post/5cfb9c…

认真写文章，用心作分享。

我的网站：yasinshaw.com

公众号：xy的技术圈