Bitmap简介

1.  BitMaphtml

Bit-map的基本思想就是用一个bit位来标记某个元素对应的Value,而Key便是该元素。因为采用了Bit为单位来存储数据,所以在存储空间方面,能够大大节省。(PS:划重点 节省存储空间git

假设有这样一个需求:在20亿个随机整数中找出某个数m是否存在其中,并假设32位操做系统,4G内存github

在Java中,int占4字节,1字节=8位(1 byte = 8 bit)算法

若是每一个数字用int存储,那就是20亿个int,于是占用的空间约为  (2000000000*4/1024/1024/1024)≈7.45G数组

若是按位存储就不同了,20亿个数就是20亿位,占用空间约为  (2000000000/8/1024/1024/1024)≈0.233G缓存

高下立判,无需多言数据结构

 

那么,问题来了,如何表示一个数呢?函数

刚才说了,每一位表示一个数,0表示不存在,1表示存在,这正符合二进制google

这样咱们能够很容易表示{1,2,4,6}这几个数:spa

计算机内存分配的最小单位是字节,也就是8位,那若是要表示{12,13,15}怎么办呢?

固然是在另外一个8位上表示了:

这样的话,好像变成一个二维数组了

1个int占32位,那么咱们只须要申请一个int数组长度为 int tmp[1+N/32] 便可存储,其中N表示要存储的这些数中的最大值,因而乎:

tmp[0]:能够表示0~31

tmp[1]:能够表示32~63

tmp[2]:能够表示64~95

。。。

如此一来,给定任意整数M,那么M/32就获得下标,M%32就知道它在此下标的哪一个位置

 

添加 

这里有个问题,咱们怎么把一个数放进去呢?例如,想把5这个数字放进去,怎么作呢?

首先,5/32=0,5%32=5,也是说它应该在tmp[0]的第5个位置,那咱们把1向左移动5位,而后按位或

换成二进制就是

这就至关于 86 | 32 = 118

86 | (1<<5) = 118

b[0] = b[0] | (1<<5)

也就是说,要想插入一个数,将1左移带表明该数字的那一位,而后与原数进行按位或操做

化简一下,就是 86 + (5/8) | (1<<(5%8))

所以,公式能够归纳为:p + (i/8)|(1<<(i%8)) 其中,p表示如今的值,i表示待插入的数

 

清除 

以上是添加,那若是要清除该怎么作呢?

仍是上面的例子,假设咱们要6移除,该怎么作呢?

从图上看,只需将该数所在的位置为0便可

1左移6位,就到达6这个数字所表明的位,而后按位取反,最后与原数按位与,这样就把该位置为0了

b[0] = b[0] & (~(1<<6))

b[0] = b[0] & (~(1<<(i%8)))

 

查找 

前面咱们也说了,每一位表明一个数字,1表示有(或者说存在),0表示无(或者说不存在)。经过把该为置为1或者0来达到添加和清除的小伙,那么判断一个数存不存在就是判断该数所在的位是0仍是1

假设,咱们想知道3在不在,那么只需判断 b[0] & (1<<3) 若是这个值是0,则不存在,若是是1,就表示存在

 

2.  Bitmap有什么用

大量数据的快速排序、查找、去重

快速排序

假设咱们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复),咱们就能够采用Bit-map的方法来达到排序的目的。

要表示8个数,咱们就只须要8个Bit(1Bytes),首先咱们开辟1Byte的空间,将这些空间的全部Bit位都置为0,而后将对应位置为1。

最后,遍历一遍Bit区域,将该位是一的位的编号输出(2,3,4,5,7),这样就达到了排序的目的,时间复杂度O(n)。

优势

  • 运算效率高,不须要进行比较和移位;
  • 占用内存少,好比N=10000000;只需占用内存为N/8=1250000Byte=1.25M

缺点

  • 全部的数据不能重复。即不可对重复的数据进行排序和查找。
  • 只有当数据比较密集时才有优点

快速去重

20亿个整数中找出不重复的整数的个数,内存不足以容纳这20亿个整数。 

首先,根据“内存空间不足以容纳这05亿个整数”咱们能够快速的联想到Bit-map。下边关键的问题就是怎么设计咱们的Bit-map来表示这20亿个数字的状态了。其实这个问题很简单,一个数字的状态只有三种,分别为不存在,只有一个,有重复。所以,咱们只须要2bits就能够对一个数字的状态进行存储了,假设咱们设定一个数字不存在为00,存在一次01,存在两次及其以上为11。那咱们大概须要存储空间2G左右。

接下来的任务就是把这20亿个数字放进去(存储),若是对应的状态位为00,则将其变为01,表示存在一次;若是对应的状态位为01,则将其变为11,表示已经有一个了,即出现屡次;若是为11,则对应的状态位保持不变,仍表示出现屡次。

最后,统计状态位为01的个数,就获得了不重复的数字个数,时间复杂度为O(n)。

快速查找

这就是咱们前面所说的了,int数组中的一个元素是4字节占32位,那么除以32就知道元素的下标,对32求余数(%32)就知道它在哪一位,若是该位是1,则表示存在。

 

小结&回顾

Bitmap主要用于快速检索关键字状态,一般要求关键字是一个连续的序列(或者关键字是一个连续序列中的大部分), 最基本的状况,使用1bit表示一个关键字的状态(可标示两种状态),但根据须要也可使用2bit(表示4种状态),3bit(表示8种状态)。

Bitmap的主要应用场合:表示连续(或接近连续,即大部分会出现)的关键字序列的状态(状态数/关键字个数  越小越好)。

32位机器上,对于一个整型数,好比int a=1 在内存中占32bit位,这是为了方便计算机的运算。可是对于某些应用场景而言,这属于一种巨大的浪费,由于咱们能够用对应的32bit位对应存储十进制的0-31个数,而这就是Bit-map的基本思想。Bit-map算法利用这种思想处理大量数据的排序、查询以及去重。

 

补充1

在数字没有溢出的前提下,对于正数和负数,左移一位都至关于乘以2的1次方,左移n位就至关于乘以2的n次方,右移一位至关于除2,右移n位至关于除以2的n次方。

<< 左移,至关于乘以2的n次方,例如:1<<6   至关于1×64=64,3<<4 至关于3×16=48

>> 右移,至关于除以2的n次方,例如:64>>3 至关于64÷8=8

^  异或,至关于求余数,例如:48^32 至关于 48%32=16

补充2

不使用第三方变量,交换两个变量的值

1 // 方式一
2 a = a + b;
3 b = a - b;
4 a = a - b;
5 
6 // 方式二
7 a = a ^ b;
8 b = a ^ b;
9 a = a ^ b;

  

3.  BitSet

BitSet实现了一个位向量,它能够根据须要增加。每一位都有一个布尔值。一个BitSet的位能够被非负整数索引(PS:意思就是每一位均可以表示一个非负整数)。能够查找、设置、清除某一位。经过逻辑运算符能够修改另外一个BitSet的内容。默认状况下,全部的位都有一个默认值false。

能够看到,跟咱们前面想的差很少

用一个long数组来存储,初始长度64,set值的时候首先右移6位(至关于除以64)计算在数组的什么位置,而后更改状态位

别的看不懂没关系,看懂这两句就够了:

1 int wordIndex = wordIndex(bitIndex);
2 words[wordIndex] |= (1L << bitIndex);

 

4.  Bloom Filters

Bloom filter 是一个数据结构,它能够用来判断某个元素是否在集合内,具备运行快速,内存占用小的特色。

而高效插入和查询的代价就是,Bloom Filter 是一个基于几率的数据结构:它只能告诉咱们一个元素绝对不在集合内或可能在集合内。

Bloom filter 的基础数据结构是一个 比特向量(可理解为数组)。

 

主要应用于大规模数据下不须要精确过滤的场景,如检查垃圾邮件地址,爬虫URL地址去重,解决缓存穿透问题等

若是想判断一个元素是否是在一个集合里,通常想到的是将集合中全部元素保存起来,而后经过比较肯定。链表、树、散列表(哈希表)等等数据结构都是这种思路,可是随着集合中元素的增长,须要的存储空间愈来愈大;同时检索速度也愈来愈慢,检索时间复杂度分别是O(n)、O(log n)、O(1)。

布隆过滤器的原理是,当一个元素被加入集合时,经过 K 个散列函数将这个元素映射成一个位数组(Bit array)中的 K 个点,把它们置为 1 。检索时,只要看看这些点是否是都是1就知道元素是否在集合中;若是这些点有任何一个 0,则被检元素必定不在;若是都是1,则被检元素极可能在(之因此说“可能”是偏差的存在)。

BloomFilter 流程

  1. 首先须要 k 个 hash 函数,每一个函数能够把 key 散列成为 1 个整数;
  2. 初始化时,须要一个长度为 n 比特的数组,每一个比特位初始化为 0;
  3. 某个 key 加入集合时,用 k 个 hash 函数计算出 k 个散列值,并把数组中对应的比特位置为 1;
  4. 判断某个 key 是否在集合时,用 k 个 hash 函数计算出 k 个散列值,并查询数组中对应的比特位,若是全部的比特位都是1,认为在集合中。

1 <dependency>
2     <groupId>com.google.guava</groupId>
3     <artifactId>guava</artifactId>
4     <version>28.1-jre</version>
5 </dependenc

com.google.common.hash.BloomFilter

 

5.  文档

http://llimllib.github.io/bloomfilter-tutorial/zh_CN/

http://www.javashuo.com/article/p-sqoymhot-bn.html

https://www.cnblogs.com/huangxincheng/archive/2012/12/06/2804756.html

http://www.javashuo.com/article/p-romvzniz-cv.html

相关文章
相关标签/搜索