面对海量的数据，咱们应该如何处理？

时间 2020-02-08

原文原文链接

1、海量数据处理

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操做。何谓海量，就是数据量太大，因此致使要么是没法在较短期内迅速解决，要么是数据太大，导致没法一次性装入内存。 git

那解决办法呢?github

针对时间，咱们能够采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit- map/堆/trie树。针对空间，无非就一个办法：大而化小，分而治之（hash映射）。面试

相关内容后续GitHub更新
（顺手留下GitHub连接，须要获取相关面试等内容的能够本身去找）
https://github.com/xiangjiana/Android-MS
(VX：mm14525201314)算法

2、算法/数据结构基础

1.Bloom Filter

Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的几率算法。Bloom Filter有可能会出现错误判断，但不会漏掉判断。也就是Bloom Filter判断元素再也不集合，那确定不在。若是判断元素存在集合中，有一定的几率判断错误。所以，Bloom Filter不适合那些“零错误”的应用场合。数组

而在能容忍低错误率的应用场合下，Bloom Filter比其余常见的算法（如hash，折半查找）极大节省了空间。数据结构

适用范围: 能够用来实现数据字典，进行数据的判重，或者集合求交集ide

2.Hash

Hash，通常翻译作“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫作预映射， pre-image），经过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间一般远小于输入的空间，不一样的输入可能会散列成相同的输出，而不可能从散列值来惟一的肯定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。函数

3. Bit-map

所谓的Bit-map就是用一个bit位来标记某个元素对应的值。因为采用了Bit为单位来存储数据，所以在存储空间方面，能够大大节省。若是说了这么多还没明白什么是Bit-map，那么咱们来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么咱们就能够采用Bit-map的方法来达到排序的目的。要表示8个数，咱们就只须要8个 Bit（1Bytes），首先咱们开辟1Byte的空间，将这些空间的全部Bit位都置为0(以下图：)

而后遍历这5个元素，首先第一个元素是4，那么就把4对应的位置为1（能够这样操做 p+(i/8)|(0x01<<(i%8)) 固然了这里的操做涉及到Big-ending和Little-ending的情况，这里默认为Big-ending）,由于是从零开始的，因此要把第五位置为一（以下图）：

而后再处理第二个元素7，将第八位置为1,，接着再处理第三个元素，一直到最后处理完全部的元素，将相应的位置为1，这时候的内存的Bit位的状态以下：
大数据

4.堆

堆是一种特殊的二叉树，具有如下两种性质 1）每一个节点的值都大于（或者都小于，称为最小堆）其子节点的值 2）树是彻底平衡的，而且最后一层的树叶都在最左边这样就定义了一个最大堆。以下图用一个数组来表示堆：
优化

5.trie树

下面咱们有and,as,at,cn,com这些关键词，那么如何构建trie树呢？

从上面的图中，咱们或多或少的能够发现一些好玩的特性。

第一：根节点不包含字符，除根节点外的每个子节点都包含一个字符。第二：从根节点到某一节点，路径上通过的字符链接起来，就是该节点对应的字符串。
第三：每一个单词的公共前缀做为一个字符节点保存。
适用范围： 前缀统计，词频统计。

6.外排序

适用范围: 大数据的排序，去重
基本原理及要点：
外部排序的两个独立阶段：

1）首先按内存大小，将外存上含n个记录的文件分红若干长度L的子文件或段。依次读入内存并利用有效的内部排序对他们进行排序，并将排序后获得的有序字文件从新写入外存，一般称这些子文件为归并段。
2）对这些归并段进行逐趟归并，使归并段逐渐由小到大，直至获得整个有序文件为之。
外排序的优化方法： 置换选择败者树原理，最优归并树

3、面试问题解决

一、海量日志数据，提取出某日访问百度次数最多的那个IP。
算法思想： 分而治之+Hash

①.IP地址最多有2^32=4G种取值状况，因此不能彻底加载到内存中处理； ②.能够考虑采用“分而治之”的思想，按照IP地址的Hash(IP)%1024值，把海量IP日志分别存储到1024个小文件中。这样，每一个小文件最多包含4MB个IP地址；
③.对于每个小文件，能够构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址；
④.能够获得1024个小文件中的出现次数最多的IP，再依据常规的排序算法获得整体上出现次数最多的IP；

2丶搜索引擎会经过日志文件把用户每次检索使用的全部检索串都记录下来，每一个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但若是除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的 10个查询串，要求使用的内存不能超过1G。

能够在内存中处理，典型的Top K算法
算法思想： hashmap+堆

①.先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计；
②.借助堆这个数据结构，找出Top K，时间复杂度为O(N*logK)。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。

三、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。
算法思想： 分而治之 + hash统计 + 堆排序

①.顺序读文件中，对于每一个词x，取hash(x)%5000，而后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每一个文件大概是200k左右。若是其中的有的文件超过了1M大小，还能够按照相似的方法继续往下分，直到分解获得的小文件的大小都不超过1M。
②.对每一个小文件，采用trie树/hash_map等统计每一个文件中出现的词以及相应的频率。
③.取出出现频率最大的100个词（能够用含100个结点的最小堆）后，再把100个词及相应的频率存入文件，这样又获得了5000个文件。最后就是把这5000个文件进行归并（相似于归并排序）的过程了。

四、有10个文件，每一个文件1G，每一个文件的每一行存放的都是用户的query，每一个文件的query均可能重复。要求你按照query的频度排序。

方案1：算法思想：分而治之 + hash统计 + 堆排序
顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件中。这样新生成的文件每一个的大小大约也1G，大于1G继续按照上述思路分。
找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每一个 query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的 query和对应的query_cout输出到文件中。这样获得了10个排好序的文件（记为）。
对这10个文件进行归并排序（内排序与外排序相结合）。

方案2：算法思想：hashmap+堆
通常query的总量是有限的，只是重复的次数比较多而已，可能对于全部的query，一次性就能够加入到内存了。这样，咱们就能够采用trie树/hash_map等直接来统计每一个query出现的次数，而后按出现次数作快速/堆/归并排序就能够了。

五、给定a、b两个文件，各存放50亿个url，每一个url各占64字节，内存限制是4G，让你找出a、b文件共同的url

方案1： 能够估计每一个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其彻底加载到内存中处理。考虑采起分而治之的方法。

算法思想： 分而治之 + hash统计

遍历文件a，对每一个url求取hash(url)%1000，而后根据所取得的值将url分别存储到 1000个小文件（记为a0,a1,...,a999）中。这样每一个小文件的大约为300M。

遍历文件b，采起和a相同的方式将url分别存储到1000小文件（记为 b0,b1,...,b999）。这样处理后，全部可能相同的url都在对应的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不对应的小文件不可能有相同的url。而后咱们只要求出1000对小文件中相同的url便可。

求每对小文件中相同的url时，能够把其中一个小文件的url存储到hash_set中。而后遍历另外一个小文件的每一个url，看其是否在刚才构建的hash_set中，若是是，那么就是共同的url，存到文件里面就能够了。

方案2： 若是容许有必定的错误率，可使用Bloom filter，4G内存大概能够表示 340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，而后挨个读取另一个文件的url，检查是否与Bloom filter，若是是，那么该url应该是共同的 url（注意会有必定的错误率）。

六、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这 2.5亿个整数。

采用2-Bitmap（每一个数分配2bit，00表示不存在，01表示出现一次，10表示屡次， 11无心义）进行，共需内存2^32 * 2 bit=1 GB内存，还能够接受。而后扫描这2.5亿个整数，查看Bitmap中相对应位，若是是00变01，01变10，10保持不变。所描完过后，查看bitmap，把对应位是01的整数输出便可。

七、给40亿个不重复的unsigned int的整数，没排过序的，而后再给一个数，如何快速判断这个数是否在那40亿个数当中？

方案1： 申请512M的内存，一个bit位表明一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

方案2： 由于2^32为40亿多，因此给定一个数可能在，也可能不在其中；

这里咱们把40亿个数中的每个用32位的二进制来表示

假设这40亿个数开始放在一个文件中。

而后将这40亿个数分红两类:

1.最高位为0
2.最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=20亿，而另外一个 >=20亿（这至关于折半了）；

与要查找的数的最高位比较并接着进入相应的文件再查找

再而后把这个文件为又分红两类:

1.次最高位为0
2.次最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=10亿，而另外一个 >=10亿（这至关于折半了）；

与要查找的数的次最高位比较并接着进入相应的文件再查找。

....... 以此类推，就能够找到了。
（顺手留下GitHub连接，须要获取相关面试等内容的能够本身去找）
https://github.com/xiangjiana/Android-MS
(VX：mm14525201314)