Java实现布隆过滤器

布隆过滤器java

  布隆过滤器主要用于判断一个元素是否在一个集合中,它能够使用一个位数组简洁的表示一个数组。它的空间效率和查询时间远远超过通常的算法,可是它存在必定的误判的几率,适用于容忍误判的场景。若是布隆过滤器判断元素存在于一个集合中,那么大几率是存在在集合中,若是它判断元素不存在一个集合中,那么必定不存在于集合中。经常被用于大数据去重。算法

算法思想数组

  布隆过滤器算法主要思想就是利用k个哈希函数计算获得不一样的哈希值,而后映射到相应的位数组的索引上,将相应的索引位上的值设置为1。判断该元素是否出如今集合中,就是利用k个不一样的哈希函数计算哈希值,看哈希值对应相应索引位置上面的值是不是1,若是有1个不是1,说明该元素不存在在集合中。可是也有可能判断元素在集合中,可是元素不在,这个元素全部索引位置上面的1都是别的元素设置的,这就致使必定的误判概率。布隆过滤的思想以下图所示:函数

java实现简单布隆过滤器(hash+bitset):大数据

import java.util.ArrayList;
import java.util.BitSet;
import java.util.List;

public class BloomFilter {
    private static final int DEFAULT_SIZE = 2 << 24;
    private static final int[] seeds = new int[] { 5, 7, 11, 13, 31, 37, 61 };
    private BitSet bits = new BitSet(DEFAULT_SIZE);
    private SimpleHash[] func = new SimpleHash[seeds.length];

    public BloomFilter() {
        for (int i = 0; i < seeds.length; i++) {
            func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
    }

    public void add(String value) {
        for (SimpleHash f : func) {
            bits.set(f.hash(value), true);
        }
    }

    public boolean contains(String value) {
        if (value == null) {
            return false;
        }
        boolean ret = true;
        for (SimpleHash f : func) {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }

    // 内部类,simpleHash
    public static class SimpleHash {
        private int cap;
        private int seed;

        public SimpleHash(int cap, int seed) {
            this.cap = cap;
            this.seed = seed;
        }

        public int hash(String value) {
            int result = 0;
            int len = value.length();
            for (int i = 0; i < len; i++) {
                result = seed * result + value.charAt(i);
            }
            return (cap - 1) & result;
        }
    }

    public static void main(String[] args) {
        BloomFilter bf = new BloomFilter();
        List<String> strs = new ArrayList<String>();
        strs.add("123456");
        strs.add("hello word");
        strs.add("transDocId");
        strs.add("123456");
        strs.add("transDocId");
        strs.add("hello word");
        strs.add("test");
        for (int i=0;i<strs.size();i++) {
            String s = strs.get(i);
            boolean bl = bf.contains(s);
            if(bl){
                System.out.println(i+","+s);
            }else{
                bf.add(s);
            }
        }
    }

}
相关文章
相关标签/搜索