【 算法与数据结构专场 】BitMap 算法介绍

咱们先来看个简单的问题。java

假如给你 20 亿个非负数的 int 型整数,而后再给你一个非负数的 int 型整数 t ,让你判断 t 是否存在于这 20 亿数中,你会怎么作呢?算法

有人可能会用一个 int 数组,而后把 20 亿个数给存进去,而后再循环遍历一下就能够了。数组

想一下,这样的话,时间复杂度是 O(n),所须要的内存空间bash

4 byte * 20 亿,一共须要 80 亿个字节,测试

大概须要 8GB 的内存空间,显然有些计算机的内存一次是加载不了这么这么多的数据的。优化

初步优化

按照上面的作法,时间复杂度是 O(n),内存是 8GB,实际上咱们是能够把时间复杂度下降到 O(1) 的。ui

例如咱们能够这样来存数据,把一个 int 非负整数 n 做为数组下标,若是 n 存在,则对应的值为 1,若是不存在,对应的值为 0。例如数组 arr[n] = 1,表示n存在,arr[n] = 0表示 n 不存在。spa

那么,咱们就能够把 20 亿个数做为下标来存,以后直接判断 arr[t] 的值,若是 arr[t] = 1,则表明存在,若是 arr[t] = 0,则表明不存在。这样,咱们就能够把时间复杂度下降到 O(1)。不过空间复杂度咱们并无下降。还稍微大了点。code

因为 int 非负整数一共有 2^31 个,因此数组的大小须要 2^32 这么大。cdn

这里可能有人说也能够用HashSet来存啊,时间复杂度也是近似O(1)。不过这里须要说明的是,HashSet里面存的必须是对象,也就是说须要把int包装成Integer,显然一个对象的话是更花销内存的,须要对象头啊什么的.....

再次优化

你们想一个问题,对于一个数,实际上咱们只须要两种状态,就是这个数存在不存在这两种可能。上面咱们用1表明存在,用0表明不存在。

也就是说,咱们是能够不用int型的数组来存储的,一个int型占用4个字节,即32个二进制位,一共能够表示40亿多个状态。用int型的来存两个状态,多浪费。

因此咱们能够考虑用boolean型的来存的,boolean貌似就占用一个字节(java中的boolena貌似是占用一个字节)。而一个boolean有true和false两种状态,因此也是成立的。这样子的话占用的内存就是2GB的内存了。

这样,就能够下降到以前的四分之1内存了。

最终优化:bitmap

你们再想一个问题,虽然boolean是表示两种状态,可是boolean实际上占用了8bit啊,按道理8bit是能够表示128种状态的。而被咱们拿来表示两个状态,是否也有点浪费了呢?

咱们都知道,一个二进制位,有0和1两种状态,因此说,其实咱们是能够用一个二进制位来表明一个int型的数是否存在的。例如对于1,3,5,7这四个数,若是存在的话,则能够这样表示:

1表明这个数存在,0表明不存在。例如表中01010101表明1,3,5,7存在,0,2,4,6不存在。

那若是8,10,14也存在怎么存呢?如图,8,10,14咱们能够存在第二个字节里

以此类推。这样子,咱们又能够把内存下降到以前的8分之一了。

这种采用一个二进制位来存储数据的方法,咱们也叫作bitmap算法。

可能有人会问,假如我要添加一个数n,我知道它要存在第n个位那里,把第n个二进制改成1,但是我要怎么操做呢?

这个对于bitmap算法是如何存储的,如何进行增删操做的,我会在以后的文章里讲,这篇就大概介绍下bitmap算法。

Java中有自带的bitmap实现,今天咱们就用Java中自带的bitmap来作道题练练手。咱们换道相似题目吧,不知道你一眼是否就能想到用bitmap算法来作。

题目描述:

如今有五十亿个int类型的正整数,要从中找出重复的数并返回。

判断50亿个数有哪些是重复和刚才上面那个判断是否存在,实际上是同样的。咱们采用bitmap算法来作。不过这里50亿个数,别人确定是以文件流的形式给你的。这样咱们为了方便,咱们就假设这些数是以存在int型数组的形式给咱们的

代码以下:

public class Test {
    //为了方便,假设数据是以数组的形式给咱们的
    public static Set<Integer> test(int[] arr) {
        int j = 0;
        //用来把重复的数返回,存在Set里,这样避免返回重复的数。
        Set<Integer> output = new HashSet<>();
        BitSet bitSet = new BitSet(Integer.MAX_VALUE);
        int i = 0;
        while (i < arr.length) {
            int value = arr[i];
            //判断该数是否存在bitSet里
            if (bitSet.get(value)) {
                output.add(value);
            } else {
                bitSet.set(value, true);
            }
            i++;
        }
        return output;
    }
    //测试
    public static void main(String[] args) {
        int[] t = {1,2,3,4,5,6,7,8,3,4};
        Set<Integer> t2 = test(t);
        System.out.println(t2);
    }
}

复制代码

打印结果:

[3, 4]
复制代码

固然,bitmap算法的应用不单单是节省内存,它还有不少其余的优势。以后有机会就拿一些其余的应用来写篇文章。

本次讲解到此结束。若是喜欢,能够分享给更多的小伙伴哦。

bitmap的存储会在以后的文章讲哦

推荐阅读:

获取更多原创文章,能够关注下个人公众号:苦逼的码农,我会不按期分享一些资源和软件等。。同时也感谢把文章介绍给更多须要的人。

相关文章
相关标签/搜索