php实现Bloom Filter

时间 2019-11-17

标签 php 实现 bloom filter 栏目 PHP 繁體版

原文原文链接

　Bloom Filter（BF）是由Bloom在1970年提出的一种多哈希函数映射的高速查找算法，用于高速查找某个元素是否属于集合，但不要求百分百的准确率。 Bloom filter通常用于爬虫的url去重，即推断某个url是否已经被爬过。原理方面我引用一篇别人的文章。讲的比較清晰了。在此我不予赘述。不少其它信息可以參考其论文。看过几个php实现的BF，都以为可读性不是很是强。本文主要给出我对Bloom Filter的一个php实现。 php

原理：

<引用自这篇文章>html

一. 实例node

　　为了说明Bloom Filter存在的重要意义，举一个实例：web

　　若是要你写一个网络蜘蛛（web crawler）。因为网络间的连接错综复杂，蜘蛛在网络间爬行很是可能会造成“环”。算法

为了不造成“环”，就需要知道蜘蛛已经訪问过那些URL。数据库

给一个URL，如何知道蜘蛛是否已经訪问过呢？略微想一想，就会有例如如下几种方案：数组

　　1. 将訪问过的URL保存到数据库。markdown

　　2. 用HashSet将訪问过的URL保存起来。那仅仅需接近O(1)的代价就可以查到一个URL是否被訪问过了。网络

　　3. URL通过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。数据结构

　　4. Bit-Map方法。

创建一个BitSet。将每个URL通过一个哈希函数映射到某一位。

　　方法1~3都是将訪问过的URL完整保存，方法4则仅仅标记URL的一个映射位。

　　以上方法在数据量较小的状况下都能完美解决这个问题，但是当数据量变得很是庞大时问题就来了。

　　方法1的缺点：数据量变得很是庞大后关系型数据库查询的效率会变得很是低。

而且每来一个URL就启动一次数据库查询是否是过小题大作了？

　　方法2的缺点：太消耗内存。随着URL的增多，占用的内存会愈来愈多。

就算仅仅有1亿个URL，每个URL仅仅算50个字符，就需要5GB内存。

　　方法3：因为字符串通过MD5处理后的信息摘要长度仅仅有128Bit。SHA-1处理后也仅仅有160Bit，所以方法3例如法2节省了好几倍的内存。

　　方法4消耗内存是相对较少的。但缺点是单一哈希函数发生冲突的几率过高。

还记得数据结构课上学过的Hash表冲突的各类解决方法么？若要减小冲突发生的几率到1%。就要将BitSet的长度设置为URL个数的100倍。

　　实质上上面的算法都忽略了一个重要的隐含条件：赞成小几率的出错，不必定要100%准确！也就是说少许url实际上没有没网络蜘蛛訪问，而将它们错判为已訪问的代价是很是小的——大不了少抓几个网页呗。

二. Bloom Filter的算法

　　废话讲到这里，如下引入本篇的主角——Bloom Filter。

事实上上面方法4的思想已经很是接近Bloom Filter了。方法四的致命缺点是冲突几率高。为了减小冲突的概念。Bloom Filter使用了多个哈希函数，而不是一个。

　Bloom Filter算法例如如下：

(1)初始化

　建立一个m位BitSet，先将全部位初始化为0，而后选择k个不一样的哈希函数。第i个哈希函数对字符串str哈希的结果记为h（i。str），且h（i。str）的范围是0到m-1 。

(2) 检查字符串是否存在

　
如下是检查字符串str是否被BitSet记录过的过程：

　　对于字符串str。分别计算h（1。str），h（2。str）…… h（k，str）。而后检查BitSet的第h（1，str）、h（2，str）…… h（k，str）位是否为1，若当中不论什么一位不为1则可以断定str必定没有被记录过。

若全部位都是1，则“以为”字符串str存在。

　　若一个字符串相应的Bit不全为1。则可以确定该字符串必定没有被Bloom Filter记录过。

（这是显然的，因为字符串被记录过。其相应的二进制位确定全部被设为1了）

　　但是若一个字符串相应的Bit全为1，其实是不能100%的确定该字符串被Bloom Filter记录过的。（因为有可能该字符串的全部位都恰好是被其它字符串所相应）这样的将该字符串划分错的状况，称为false positive 。

(3) 删除字符串 :

字符串增长了就被不能删除了，因为删除会影响到其它字符串。实在需要删除字符串的可以使用Counting bloomfilter(CBF)。这是一种基本Bloom Filter的变体，CBF将基本Bloom Filter每个Bit改成一个计数器，这样就可以实现删除字符串的功能了。

　　Bloom Filter跟单哈希函数Bit-Map不一样之处在于：Bloom Filter使用了k个哈希函数，每个字符串跟k个bit相应。从而减小了冲突的几率。

三. Bloom Filter參数选择

(1)哈希函数选择

　　哈希函数的选择对性能的影响应该是很是大的，一个好的哈希函数要能近似等几率的将字符串映射到各个Bit。选择k个不一样的哈希函数比較麻烦，一种简单的方法是选择一个哈希函数，而后送入k个不一样的參数。

(2)Bit数组大小选择

　　哈希函数个数k、位数组大小m、增长的字符串数量n的关系可以參考參考文献1。该文献证实了对于给定的m、n，当 k = ln(2)* m/n 时出错的几率是最小的。

　　同一时候该文献还给出特定的k，m，n的出错几率。例如：依据參考文献，哈希函数个数k取10，位数组大小m设为字符串个数n的20倍时，false positive发生的几率是0.0000889 ，这个几率基本能知足网络爬虫的需求了。

实现：

<?php ///*************************************************************************** // *  // * Copyright (c) 2015 Baidu.com, Inc. All Rights Reserved // *  // **************************************************************************/ //  //  //  ///** // * @file bloomfilter.php // * @author Rachel Zhang(zrqsophia@sina.com) // * @date 2015/07/24 18:48:57 // * @version $Revision$  // * @brief  // *  // **/ class BloomFilter{ var $m; # blocksize var $n; # number of strings to hash var $k; # number of hashing functions var $bitset; # hashing block with size m function BloomFilter($mInit,$nInit){ $this->m = $mInit; $this->n = $nInit; $this->k = ceil(($this->m/$this->n)*log(2)); echo "number of functions: $this->k\n"; $this->bitset = array_fill(0, $this->m, false); } function hashcode($str){ $res = array(); #put k hashing bit into $res $seed = crc32($str); mt_srand($seed); // set random seed, or mt_rand wouldn't provide same random arrays at different generation for($i=0 ; $i<$this->k ; $i++){ $res[] = mt_rand(0,$this->m-1); } return $res; } function addKey($key){ foreach($this->hashcode($key) as $codebit){ $this->bitset[$codebit]=true; } } function existKey($key){ $code=$this->hashcode($key); foreach($code as $codebit){ if($this->bitset[$codebit]==false){ return false; } } return true; } } $bf = new BloomFilter(10,2); $str_add1 = "test1"; $str_add2 = "test2"; $str_notadd3 = "test3"; //var_dump($bf->hashcode($str)); $bf->addKey($str_add1); $bf->addKey($str_add2); var_dump($bf->existKey($str_add1)); var_dump($bf->existKey($str_add2)); var_dump($bf->existKey($str_notadd3)); ?>

1. golang bloom filter实现
2. Python实现Bloom filter
3. golang 实现bloom filter
4. Bloom Filter算法和实现
5. Bloom Filter原理与实现
6. Bloom Filter原理实现
7. bloom filter的开源实现程序memcached bloom filter
8. Bloom Filter
9. bloom filter
10. Bloom filter
更多相关文章...
• PHP Filter 函数 - PHP参考手册
• 现实生活中的 XML - XML 教程
• ☆基于Java Instrument的Agent实现
• Spring Cloud 微服务实战(三) - 服务注册与发现