云计算面试题知识汇总，云计算面试经验讲解

时间 2019-12-05

原文原文链接

云计算岗位面试其实并无不少人想的那么复杂，主要是电话面试，估计是面试的人比较少，简单的问了一些技术问题，在问了有一些商务对接方面的问题第一轮，技术面的时候，问了云计算的3个层面，云计算如今发展状况，商务面的时候，问了商务对接如何有效进行；第二轮，主要问作过什么项目，如何作项目，下面给你们分享几个实用的云计算面试题知识。面试

一、海量日志数据，提取出某日访问百度次数最多的那个IP。数组

IP是32位的，最多有个2^32个IP。一样能够采用映射的方法，好比模1000，把整个大文件映射为1000个小文件，再找出每一个小文中出现频率最大的IP（能够采用hash_map进行频率统计，而后再找出频率最大的几个）及相应的频率。而后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。搜索引擎

二、搜索引擎会经过日志文件把用户每次检索使用的全部检索串都记录下来，每一个查询串的长度为1-255字节。云计算

假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但若是除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。url

第一步借用hash统计进行预处理：先对这批海量数据预处理(维护一个Key为Query字串，Value为该Query出现次数，即Hashmap(Query，Value)，每次读取一个Query，若是该字串不在Table中，那么加入该字串，而且将Value值设为1；若是该字串在Table中，那么将该字串的计数加一便可。最终咱们在O(N)（N为1千万，由于要遍历整个数组一遍才能统计处每一个query出现的次数）的时间复杂度内用Hash表完成了统计；日志

第二步借用堆排序找出最热门的10个查询串：时间复杂度为N'*logK。维护一个K(该题目中是10)大小的小根堆，而后遍历3百万个Query，分别和根元素进行对比（对比value的值），找出10个value值最大的query排序

最终的时间复杂度是：O（N） + N'*O（logK），（N为1000万，N’为300万）索引

或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。内存

三、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。hash

第一步分而治之/hash映射到顺序读文件中，对于每一个词x，取hash(x)%5000，而后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每一个文件大概是200k左右。若是其中的有的文件超过了1M大小，还能够按照相似的方法继续往下分，直到分解获得的小文件的大小都不超过1M。

第二步hash统计对每一个小文件，统计每一个文件中出现的词以及相应的频率（能够采用trie树/hash_map等），并取出出现频率最大的100个词（能够用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又获得了5000个文件。

第三步堆/归并排序就是把这5000个文件进行归并（也能够采用堆排序）的过程了。（若是内存容许能够将这5000个文件中的全部元素合并起来，利用堆得到top 100）

四、给定a、b两个文件，各存放50亿个url，每一个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

能够估计每一个文件安的大小为5G×64=320G，远远大于内存限制的4G。因此不可能将其彻底加载到内存中处理。考虑采起分而治之的方法。

遍历文件a，对每一个url求取hash(url)%1000，而后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,...,a999）中。这样每一个小文件的大约为300M。

遍历文件b，采起和a相同的方式将url分别存储到1000小文件（记为b0,b1,...,b999）。这样处理后，全部可能相同的url都在对应的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不对应的小文件不可能有相同的url。而后咱们只要求出1000对小文件中相同的url便可。

求每对小文件中相同的url时，能够把其中一个小文件的url存储到hash_set中。而后遍历另外一个小文件的每一个url，看其是否在刚才构建的hash_set中，若是是，那么就是共同的url，存到文件里面就能够了。

腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，而后再给一个数，如何快速判断这个数是否在那40亿个数当中？

方案1：申请512M的内存（2^32/8=512MB），一个bit位表明一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

方案2：由于2^32为40亿多，因此给定一个数可能在，也可能不在其中；这里咱们把40亿个数中的每个用32位的二进制来表示假设这40亿个数开始放在一个文件中。

而后将这40亿个数分红两类: 1. 最高位为0 2. 最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=20亿，而另外一个>=20亿（这至关于折半了）；与要查找的数的最高位比较并接着进入相应的文件再查找

再而后把这个文件为又分红两类: 1.次最高位为0 2.次最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=10亿，而另外一个>=10亿（这至关于折半了）；与要查找的数的次最高位比较并接着进入相应的文件再查找。 ....... 以此类推，就能够找到了,并且时间复杂度为O(logn)。