海量数据处理(转，简化)

时间 2019-11-11

原文原文链接

转自：http://www.cnblogs.com/v-July-v/archive/2012/03/22/2413055.htmlhtml

做者：July
出处：结构之法算法之道blog面试

何谓海量数据处理？

　　所谓海量数据处理，其实很简单，海量，海量，何谓海量，就是数据量太大，因此致使要么是没法在较短期内迅速解决，要么是数据太大，致使没法一次性装入内存。算法

那解决办法呢?针对时间，咱们能够采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie/(时间)，针对空间，无非就一个办法：大而化小：分而治之/hash映射(空间)，你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。数据库

至于所谓的单机及集群问题，通俗点来说，单机就是处理装载数据的机器有限(只要考虑cpu，内存，硬盘的数据交互)，而集群，机器有多辆，适合分布式处理，并行计算(更多考虑节点和节点间的数据交互)。数组

解决方案：数据结构

分而治之/hash映射 + hash统计 + 堆/快速/归并排序；
双层桶划分
Bloom filter/Bitmap；
Trie树/数据库/倒排索引；
外排序；
分布式处理之Hadoop/Mapreduce。

密匙1、分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序

　　海量日志数据，提取出某日访问百度次数最多的那个IP。

　　既然是海量数据处理，那么可想而知，给咱们的数据那就必定是海量的。针对这个数据的海量，咱们如何着手呢?对的，无非就是分而治之/hash映射 + hash统计 + 堆/快速/归并排序，说白了，就是先映射后划分，然后统计，最后排序：app

(空间)分而治之/hash映射：针对数据太大，内存受限，只能是：把大文件化成(取模映射)小文件，即16字方针：大而化小，各个击破，缩小规模，逐个解决
(时间)hash统计：当大文件转化了小文件，那么咱们即可以采用常规的Hashmap(ip，value)来进行频率统计。
堆/快速排序：统计完了以后，便进行排序(可采起堆排序)，获得次数最多的IP。

具体而论，则是： “首先是这一天，而且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。一样能够采用映射的方法，好比模1000，把整个大文件映射为1000个小文件，再找出每一个小文中出现频率最大的IP（能够采用Hash_map进行频率统计，而后再找出频率最大的几个）及相应的频率。而后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。”--十道海量数据处理面试题与十个方法大总结。分布式

密匙2、双层桶划分

　　双层桶划分----其实本质上仍是分而治之的思想，重在“分”的技巧上！
　　适用范围：第k大，中位数，不重复或重复的数字
　　基本原理及要点：由于元素范围很大，不能利用直接寻址表，因此经过屡次划分，逐步肯定范围，而后最后在一个能够接受的范围内进行。能够经过屡次缩小，双层只是一个例子。
　　扩展：
　　问题实例：函数

1).2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。
　　有点像鸽巢原理，整数个数为2^32,也就是，咱们能够将这2^32个数，划分为2^8个区域(好比用单个文件表明一个区域)，而后将数据分离到不一样的区域，而后不一样的区域在利用bitmap就能够直接解决了。也就是说只要有足够的磁盘空间，就能够很方便的解决。oop

2).5亿个int找它们的中位数。
　　这个例子比上面那个更明显。首先咱们将int划分为2^16个区域，而后读取数据统计落到各个区域里的数的个数，以后咱们根据统计结果就能够判断中位数落到那个区域，同时知道这个区域中的第几大数恰好是中位数。而后第二次扫描咱们只统计落在这个区域中的那些数就能够了。
　　实际上，若是不是int是int64，咱们能够通过3次这样的划分便可下降到能够接受的程度。便可以先将int64分红2^24个区域，而后肯定区域的第几大数，在将该区域分红2^20个子区域，而后肯定是子区域的第几大数，而后子区域里的数的个数只有2^20，就能够直接利用direct addr table进行统计了。

密匙三：Bloom filter/Bitmap

Bloom filter

　　适用范围：能够用来实现数据字典，进行数据的判重，或者集合求交集
　　基本原理及要点：
　　对于原理来讲很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时若是发现全部hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，由于该关键字对应的位会牵动到其余的关键字。

　　因此一个简单的改进就是 counting Bloom filter，用一个counter数组代替位数组，就能够支持删除了(改进二：使用多个Hash函数来检验)。
　　还有一个比较重要的问题，如何根据输入元素个数n，肯定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的状况下，m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些，由于还要保证bit数组里至少一半为0，则m应该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。
　　举个例子咱们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。
　　注意这里m与n的单位不一样，m是bit为单位，而n则是以元素个数为单位(准确的说是不一样元素的个数)。一般单个元素的长度都是有不少bit的。因此使用bloom filter内存上一般都是节省的。
　　扩展：
　　Bloom filter将集合中的元素映射到位数组中，用k（k为哈希函数个数）个映射位是否全1表示元素在不在这个集合中。Counting bloom filter（CBF）将位数组中的每一位扩展为一个counter，从而支持了元素的删除操做。Spectral Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF采用counter中的最小值来近似表示元素的出现频率。　　

问题实例：给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。若是是三个乃至n个文件呢？

　　根据这个问题咱们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿，n=50亿，若是按出错率0.01算须要的大概是650亿个bit。如今可用的是340亿，相差并很少，这样可能会使出错率上升些。另外若是这些urlip是一一对应的，就能够转换成ip，则大大简单了。

同时，上文的第5题：给定a、b两个文件，各存放50亿个url，每一个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？若是容许有必定的错误率，可使用Bloom filter，4G内存大概能够表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，而后挨个读取另一个文件的url，检查是否与Bloom filter，若是是，那么该url应该是共同的url（注意会有必定的错误率）。

Bitmap

至于什么是Bitmap，请看此文：http://blog.csdn.net/v_july_v/article/details/6685962。下面关于Bitmap的应用，直接上题，以下第九、10道：

九、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

方案1：采用2-Bitmap（每一个数分配2bit，00表示不存在，01表示出现一次，10表示屡次，11无心义）进行，共需内存2^32 * 2 bit=1 GB内存，还能够接受。而后扫描这2.5亿个整数，查看Bitmap中相对应位，若是是00变01，01变10，10保持不变。所描完过后，查看bitmap，把对应位是01的整数输出便可。
方案2：也可采用与第1题相似的方法，进行划分小文件的方法。而后在小文件中找出不重复的整数，并排序。而后再进行归并，注意去除重复的元素。

十、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，而后再给一个数，如何快速判断这个数是否在那40亿个数当中？
方案1：oo，申请512M的内存，一个bit位表明一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

密匙4、Trie树/数据库/倒排索引

Trie树

　　适用范围：数据量大，重复多，可是数据种类小能够放入内存
　　基本原理及要点：实现方式，节点孩子的表示方式
　　扩展：压缩实现。

　　问题实例：

有10个文件，每一个文件1G，每一个文件的每一行都存放的是用户的query，每一个文件的query均可能重复。要你按照query的频度排序。
1000万字符串，其中有些是相同的(重复),须要把重复的所有去掉，保留没有重复的字符串。请问怎么设计和实现？
寻找热门查询：查询串的重复度比较高，虽然总数是1千万，但若是除去重复后，不超过3百万个，每一个不超过255字节。
上面的第8题：一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词。其解决方法是：用trie树统计每一个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度），而后是找出出现最频繁的前10个词。

更多有关Trie树的介绍，请参见此文：http://www.cnblogs.com/v-July-v/archive/2011/10/22/2316412.html

数据库索引
　　适用范围：大数据量的增删改查
　　基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。

倒排索引(Inverted index)
　　适用范围：搜索引擎，关键字查询
　　基本原理及要点：为什么叫倒排索引？一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。
　以英文为例，下面是要被索引的文本：
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
咱们就能获得下面的反向文件索引：
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
　检索的条件"what","is"和"it"将对应集合的交集。

　　正向索引开发出来用来存储每一个文档的单词的列表。正向索引的查询每每知足每一个文档有序频繁的全文查询和每一个单词在校验文档中的验证这样的查询。在正向索引中，文档占据了中心的位置，每一个文档指向了一个它所包含的索引项的序列。也就是说文档指向了它包含的那些单词，而反向索引则是单词指向了包含它的文档，很容易看到这个反向的关系。
　　扩展：
　　问题实例：文档检索系统，查询那些文件包含了某单词，好比常见的学术论文的关键字搜索。

关于倒排索引的应用，更多请参见：第二十3、四章：杨氏矩阵查找，倒排索引关键词Hash不重复编码实践，及第二十六章：基于给定的文档生成倒排索引的编码与实践。

密匙5、外排序

　　适用范围：大数据的排序，去重
　　基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树
　　扩展：
　　问题实例：
　　1).有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。
　　这个数据具备很明显的特色，词的大小为16个字节，可是内存只有1m作hash有些不够，因此能够用来排序。内存能够当输入缓冲区使用。

关于多路归并算法及外排序的具体应用场景，请参见此文：第十章、如何给10^7个数据量的磁盘文件排序。

密匙6、分布式处理 Mapreduce

适用范围：数据量大，可是数据种类小能够放入内存
　　基本原理及要点：将数据交给不一样的机器去处理，数据划分，结果归约。
　　扩展：
　　问题实例：

The canonical example application of MapReduce is a process to count the appearances of each different word in a set of documents:
海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。
一共有N个机器，每一个机器上有N个数。每一个机器最多存O(N)个数并对它们操做。如何找到N^2个数的中数(median)