面试笔试问题：大数据量，海量数据处理方法总结

时间 2019-11-11

原文原文链接

面试笔试问题：大数据量，海量数据处理方法总结面试

Hashing 算法

适用范围：快速查找，删除的基本数据结构，一般须要总数据量能够放入内存
基本原理及要点： hash函数选择，针对字符串，整数，排列，具体相应的hash方法。
碰撞处理，一种是open hashing，也称为拉链法；另外一种就是closed hashing，也称开地址法，opened addressing。数据库

数组的特色是：寻址容易，插入和删除困难；而链表的特色是：寻址困难，插入和删除容易。那么咱们能不能综合二者的特性，作出一种寻址容易，插入删除也容易的数据结构？答案是确定的，这就是咱们要提起的哈希表，哈希表有多种不一样的实现方法，最经常使用的一种方法——拉链法，咱们能够理解为“链表的数组” 数组

bit-map 数据结构

适用范围：可进行数据的快速查找，判重，删除，通常来讲数据范围是int的10倍如下
基本原理及要点：使用bit数组来表示某些元素是否存在，好比8位电话号码
扩展：bloom filter能够看作是对bit-map的扩展分布式

双层桶划分函数

事实上，与其说双层桶划分是一种数据结构，不如说它是一种算法设计思想。面对一堆大量的数据咱们没法处理的时候，咱们能够将其分红一个个小的单元，而后根据必定的策略来处理这些小单元，从而达到目的。 oop

适用范围：第k大，中位数，不重复或重复的数字
基本原理及要点：由于元素范围很大，不能利用直接寻址表，因此经过屡次划分，逐步肯定范围，而后最后在一个能够接受的范围内进行, 分治才是其根本。
问题实例：大数据

堆搜索引擎

适用范围：海量数据前n大，而且n比较小，堆能够放入内存（适合大数据量，求前n小，n的大小比较小的状况，这样能够扫描一遍便可获得全部的前n元素，效率很高）
扩展：双堆，一个最大堆与一个最小堆结合，能够用来维护中位数。
问题实例： 100w个数中找最大的前100个数。

倒排索引(Inverted index)

适用范围：搜索引擎，关键字查询
基本原理及要点：为什么叫倒排索引？一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。
以英文为例，下面是要被索引的文本：
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
咱们就能获得下面的反向文件索引：
"a":       {2}
"banana": {2}
"is":     {0, 1, 2}
"it":     {0, 1, 2}
"what":   {0, 1}
检索的条件"what", "is" 和 "it" 将对应集合的交集。
正向索引开发出来用来存储每一个文档的单词的列表。正向索引的查询每每知足每一个文档有序频繁的全文查询和每一个单词在校验文档中的验证这样的查询。在正向索引中，文档占据了中心的位置，每一个文档指向了一个它所包含的索引项的序列。也就是说文档指向了它包含的那些单词，而反向索引则是单词指向了包含它的文档，很容易看到这个反向的关系。
问题实例：文档检索系统，查询那些文件包含了某单词，好比常见的学术论文的关键字搜索。

1. 分而治之/hash映射 + hash统计 + 堆/快速/归并排序；

2. 双层桶划分

3. Bloom filter/Bitmap；

4. Trie树/数据库/倒排索引；

5. 外排序；

6. 分布式处理之Hadoop/Mapreduce。

分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序

一、海量日志数据，提取出某日访问百度次数最多的那个IP。

IP是32位的，最多有个2^32个IP。一样能够采用映射的方法，好比模1000，把整个大文件映射为1000个小文件，再找出每一个小文中出现频率最大的IP（能够采用hash_map进行频率统计，而后再找出频率最大的几个）及相应的频率。而后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。

二、搜索引擎会经过日志文件把用户每次检索使用的全部检索串都记录下来，每一个查询串的长度为1-255字节。

假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但若是除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

第一步借用hash统计进行预处理：先对这批海量数据预处理(维护一个Key为Query字串，Value为该Query出现次数，即Hashmap(Query，Value)，每次读取一个Query，若是该字串不在Table中，那么加入该字串，而且将Value值设为1；若是该字串在Table中，那么将该字串的计数加一便可。最终咱们在O(N)（N为1千万，由于要遍历整个数组一遍才能统计处每一个query出现的次数）的时间复杂度内用Hash表完成了统计；
第二步借用堆排序找出最热门的10个查询串：时间复杂度为N'*logK。维护一个K(该题目中是10)大小的小根堆，而后遍历3百万个Query，分别和根元素进行对比（对比value的值），找出10个value值最大的query
最终的时间复杂度是：O（N） + N'*O（logK），（N为1000万，N’为300万）

或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。

三、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

第一步分而治之/hash映射到顺序读文件中，对于每一个词x，取hash(x)%5000，而后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每一个文件大概是200k左右。若是其中的有的文件超过了1M大小，还能够按照相似的方法继续往下分，直到分解获得的小文件的大小都不超过1M。

第二步hash统计对每一个小文件，统计每一个文件中出现的词以及相应的频率（能够采用trie树/hash_map等），并取出出现频率最大的100个词（能够用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又获得了5000个文件。
第三步堆/归并排序就是把这5000个文件进行归并（也能够采用堆排序）的过程了。（若是内存容许能够将这5000个文件中的全部元素合并起来，利用堆得到top 100）

四、给定a、b两个文件，各存放50亿个url，每一个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

　　能够估计每一个文件安的大小为5G×64=320G，远远大于内存限制的4G。因此不可能将其彻底加载到内存中处理。考虑采起分而治之的方法。

遍历文件a，对每一个url求取hash(url)%1000，而后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,...,a999）中。这样每一个小文件的大约为300M。

遍历文件b，采起和a相同的方式将url分别存储到1000小文件（记为b0,b1,...,b999）。这样处理后，全部可能相同的url都在对应的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不对应的小文件不可能有相同的url。而后咱们只要求出1000对小文件中相同的url便可。

求每对小文件中相同的url时，能够把其中一个小文件的url存储到hash_set中。而后遍历另外一个小文件的每一个url，看其是否在刚才构建的hash_set中，若是是，那么就是共同的url，存到文件里面就能够了。

位图存储（bitmap）

1. 已知某个文件内包含一些电话号码，每一个号码为8位数字，统计不一样号码的个数（共有都少个不一样的号码）。

8位最多99 999 999（0-99 999 999共1亿个数），每一个数字对应一个Bit位，因此只须要99MBit==1.2MBytes，这样，就用了小小的1.2M左右的内存表示了全部的8位数的电话）

2. 2.5亿个整数（int）中找出不重复的整数的个数，内存足够大。

将bit-map扩展一下，用2bit表示一个数便可，0表示未出现，1表示出现一次，2表示出现2次及以上。或者咱们不用2bit来进行表示，咱们用两个bit-map便可模拟实现这个2bit-map。（每一个整数用两位，存储全部的整数须要2^32*2=1GB的内存）

3. 2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

整数个数为2^32，咱们能够将这2^32个数，划分为2^8个区域(好比用单个文件表明一个区域)，而后将数据分离到不一样的区域，而后不一样的区域在利用bitmap（占用4MB，内存能够存下）就能够直接解决了。也就是说只要有足够的磁盘空间，就能够很方便的解决。

4. 5亿个int找它们的中位数 (指将统计整体当中的各个变量值按大小顺序排列起来，造成一个数列，处于变量数列中间位置的变量值就称为中位数)

首先咱们将int划分为2^16个区域（确定是按大小的），而后读取数据统计落到各个区域里的数的个数，以后咱们根据统计结果就能够判断中位数落到那个区域，同时知道这个区域中的第几大数恰好是中位数。而后第二次扫描咱们只统计落在这个区域中的那些数就能够了。

5. 腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，而后再给一个数，如何快速判断这个数是否在那40亿个数当中？

方案1：申请512M的内存（2^32/8=512MB），一个bit位表明一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

方案2：由于2^32为40亿多，因此给定一个数可能在，也可能不在其中；这里咱们把40亿个数中的每个用32位的二进制来表示假设这40亿个数开始放在一个文件中。

而后将这40亿个数分红两类: 1. 最高位为0 2. 最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=20亿，而另外一个>=20亿（这至关于折半了）；与要查找的数的最高位比较并接着进入相应的文件再查找

再而后把这个文件为又分红两类: 1.次最高位为0 2.次最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=10亿，而另外一个>=10亿（这至关于折半了）；与要查找的数的次最高位比较并接着进入相应的文件再查找。 ....... 以此类推，就能够找到了,并且时间复杂度为O(logn)。

面试笔试问题：大数据量，海量数据 处理方法总结

面试笔试问题：大数据量，海量数据处理方法总结