Bitmap简介

时间 2019-11-06

标签 bitmap 简介繁體版

原文原文链接

1. BitMaphtml

Bit-map的基本思想就是用一个bit位来标记某个元素对应的Value，而Key便是该元素。因为采用了Bit为单位来存储数据，所以在存储空间方面，能够大大节省。（PS：划重点 节省存储空间）git

假设有这样一个需求：在20亿个随机整数中找出某个数m是否存在其中，并假设32位操做系统，4G内存github

在Java中，int占4字节，1字节=8位（1 byte = 8 bit）算法

若是每一个数字用int存储，那就是20亿个int，于是占用的空间约为 (2000000000*4/1024/1024/1024)≈7.45G数组

若是按位存储就不同了，20亿个数就是20亿位，占用空间约为 (2000000000/8/1024/1024/1024)≈0.233G缓存

高下立判，无需多言数据结构

那么，问题来了，如何表示一个数呢？函数

刚才说了，每一位表示一个数，0表示不存在，1表示存在，这正符合二进制google

这样咱们能够很容易表示{1,2,4,6}这几个数：spa

计算机内存分配的最小单位是字节，也就是8位，那若是要表示{12,13,15}怎么办呢？

固然是在另外一个8位上表示了：

这样的话，好像变成一个二维数组了

1个int占32位，那么咱们只须要申请一个int数组长度为 int tmp[1+N/32] 便可存储，其中N表示要存储的这些数中的最大值，因而乎：

tmp[0]：能够表示0~31

tmp[1]：能够表示32~63

tmp[2]：能够表示64~95

。。。

如此一来，给定任意整数M，那么M/32就获得下标，M%32就知道它在此下标的哪一个位置

添加

这里有个问题，咱们怎么把一个数放进去呢？例如，想把5这个数字放进去，怎么作呢？

首先，5/32=0，5%32=5，也是说它应该在tmp[0]的第5个位置，那咱们把1向左移动5位，而后按位或

换成二进制就是

这就至关于 86 | 32 = 118

86 | (1<<5) = 118

b[0] = b[0] | (1<<5)

也就是说，要想插入一个数，将1左移带表明该数字的那一位，而后与原数进行按位或操做

化简一下，就是 86 + (5/8) | (1<<(5%8))

所以，公式能够归纳为：p + (i/8)|(1<<(i%8)) 其中，p表示如今的值，i表示待插入的数

清除

以上是添加，那若是要清除该怎么作呢？

仍是上面的例子，假设咱们要6移除，该怎么作呢？

从图上看，只需将该数所在的位置为0便可

1左移6位，就到达6这个数字所表明的位，而后按位取反，最后与原数按位与，这样就把该位置为0了

b[0] = b[0] & (~(1<<6))

b[0] = b[0] & (~(1<<(i%8)))

查找

前面咱们也说了，每一位表明一个数字，1表示有（或者说存在），0表示无（或者说不存在）。经过把该为置为1或者0来达到添加和清除的小伙，那么判断一个数存不存在就是判断该数所在的位是0仍是1

假设，咱们想知道3在不在，那么只需判断 b[0] & (1<<3) 若是这个值是0，则不存在，若是是1，就表示存在

2. Bitmap有什么用

大量数据的快速排序、查找、去重

快速排序

假设咱们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）,咱们就能够采用Bit-map的方法来达到排序的目的。

要表示8个数，咱们就只须要8个Bit（1Bytes），首先咱们开辟1Byte的空间，将这些空间的全部Bit位都置为0，而后将对应位置为1。

最后，遍历一遍Bit区域，将该位是一的位的编号输出（2，3，4，5，7），这样就达到了排序的目的，时间复杂度O(n)。

优势：

运算效率高，不须要进行比较和移位；
占用内存少，好比N=10000000；只需占用内存为N/8=1250000Byte=1.25M

缺点：

全部的数据不能重复。即不可对重复的数据进行排序和查找。
只有当数据比较密集时才有优点

快速去重

20亿个整数中找出不重复的整数的个数，内存不足以容纳这20亿个整数。

首先，根据“内存空间不足以容纳这05亿个整数”咱们能够快速的联想到Bit-map。下边关键的问题就是怎么设计咱们的Bit-map来表示这20亿个数字的状态了。其实这个问题很简单，一个数字的状态只有三种，分别为不存在，只有一个，有重复。所以，咱们只须要2bits就能够对一个数字的状态进行存储了，假设咱们设定一个数字不存在为00，存在一次01，存在两次及其以上为11。那咱们大概须要存储空间2G左右。

接下来的任务就是把这20亿个数字放进去（存储），若是对应的状态位为00，则将其变为01，表示存在一次；若是对应的状态位为01，则将其变为11，表示已经有一个了，即出现屡次；若是为11，则对应的状态位保持不变，仍表示出现屡次。

最后，统计状态位为01的个数，就获得了不重复的数字个数，时间复杂度为O(n)。

快速查找

这就是咱们前面所说的了，int数组中的一个元素是4字节占32位，那么除以32就知道元素的下标，对32求余数（%32）就知道它在哪一位，若是该位是1，则表示存在。

小结&回顾

Bitmap主要用于快速检索关键字状态，一般要求关键字是一个连续的序列（或者关键字是一个连续序列中的大部分），最基本的状况，使用1bit表示一个关键字的状态（可标示两种状态），但根据须要也可使用2bit（表示4种状态），3bit（表示8种状态）。

Bitmap的主要应用场合：表示连续（或接近连续，即大部分会出现）的关键字序列的状态（状态数/关键字个数越小越好）。

32位机器上，对于一个整型数，好比int a=1 在内存中占32bit位，这是为了方便计算机的运算。可是对于某些应用场景而言，这属于一种巨大的浪费，由于咱们能够用对应的32bit位对应存储十进制的0-31个数，而这就是Bit-map的基本思想。Bit-map算法利用这种思想处理大量数据的排序、查询以及去重。

补充1

在数字没有溢出的前提下，对于正数和负数，左移一位都至关于乘以2的1次方，左移n位就至关于乘以2的n次方，右移一位至关于除2，右移n位至关于除以2的n次方。

<< 左移，至关于乘以2的n次方，例如：1<<6 至关于1×64=64，3<<4 至关于3×16=48

>> 右移，至关于除以2的n次方，例如：64>>3 至关于64÷8=8

^ 异或，至关于求余数，例如：48^32 至关于 48%32=16

补充2

不使用第三方变量，交换两个变量的值

1 // 方式一
2 a = a + b;
3 b = a - b;
4 a = a - b;
5 
6 // 方式二
7 a = a ^ b;
8 b = a ^ b;
9 a = a ^ b;

3. BitSet

BitSet实现了一个位向量，它能够根据须要增加。每一位都有一个布尔值。一个BitSet的位能够被非负整数索引（PS：意思就是每一位均可以表示一个非负整数）。能够查找、设置、清除某一位。经过逻辑运算符能够修改另外一个BitSet的内容。默认状况下，全部的位都有一个默认值false。

能够看到，跟咱们前面想的差很少

用一个long数组来存储，初始长度64，set值的时候首先右移6位（至关于除以64）计算在数组的什么位置，而后更改状态位

别的看不懂没关系，看懂这两句就够了：

1 int wordIndex = wordIndex(bitIndex);
2 words[wordIndex] |= (1L << bitIndex);

4. Bloom Filters

Bloom filter 是一个数据结构，它能够用来判断某个元素是否在集合内，具备运行快速，内存占用小的特色。

而高效插入和查询的代价就是，Bloom Filter 是一个基于几率的数据结构：它只能告诉咱们一个元素绝对不在集合内或可能在集合内。

Bloom filter 的基础数据结构是一个比特向量（可理解为数组）。

主要应用于大规模数据下不须要精确过滤的场景，如检查垃圾邮件地址，爬虫URL地址去重，解决缓存穿透问题等

若是想判断一个元素是否是在一个集合里，通常想到的是将集合中全部元素保存起来，而后经过比较肯定。链表、树、散列表（哈希表）等等数据结构都是这种思路，可是随着集合中元素的增长，须要的存储空间愈来愈大；同时检索速度也愈来愈慢，检索时间复杂度分别是O(n)、O(log n)、O(1)。

布隆过滤器的原理是，当一个元素被加入集合时，经过 K 个散列函数将这个元素映射成一个位数组（Bit array）中的 K 个点，把它们置为 1 。检索时，只要看看这些点是否是都是1就知道元素是否在集合中；若是这些点有任何一个 0，则被检元素必定不在；若是都是1，则被检元素极可能在（之因此说“可能”是偏差的存在）。

BloomFilter 流程

首先须要 k 个 hash 函数，每一个函数能够把 key 散列成为 1 个整数；
初始化时，须要一个长度为 n 比特的数组，每一个比特位初始化为 0；
某个 key 加入集合时，用 k 个 hash 函数计算出 k 个散列值，并把数组中对应的比特位置为 1；
判断某个 key 是否在集合时，用 k 个 hash 函数计算出 k 个散列值，并查询数组中对应的比特位，若是全部的比特位都是1，认为在集合中。

1 <dependency>
2     <groupId>com.google.guava</groupId>
3     <artifactId>guava</artifactId>
4     <version>28.1-jre</version>
5 </dependenc

com.google.common.hash.BloomFilter

5. 文档

http://llimllib.github.io/bloomfilter-tutorial/zh_CN/

http://www.javashuo.com/article/p-sqoymhot-bn.html

https://www.cnblogs.com/huangxincheng/archive/2012/12/06/2804756.html

http://www.javashuo.com/article/p-romvzniz-cv.html

1. bitmap详细介绍
2. Redis BitMap介绍及使用
3. Android Bitmap详细介绍
4. Android Bitmap缓存介绍
5. bitmap
6. BitMap
7. Bitmap
8. Bitmap转圆形图片Bitmap
9. Android Bitmap上绘制Bitmap
10. 简化布隆过滤器——BitMap
更多相关文章...
• Scala 简介 - Scala教程
• AJAX 简介 - PHP教程
• Github 简明教程
• Java Agent入门实战（一）-Instrumentation介绍与使用