转：最新面试题集锦

时间 2019-11-11

原文原文链接

原文地址：http://blog.csdn.net/hackbuteer1/article/details/7348968面试

一、实现一个函数，对一个正整数n，算获得1须要的最少操做次数。操做规则为：若是n为偶数，将其除以2；若是n为奇数，能够加1或减1；一直处理下去。算法

例子：
func(7) = 4，能够证实最少须要4次运算
n = 7
n-1 6
n/2 3
n-1 2
n/2 1
要求：实现函数(实现尽量高效) int func(unsign int n)；n为输入，返回最小的运算次数。给出思路(文字描述)，完成代码，并分析你算法的时间复杂度。
答：数组

[cpp] view plaincopy

int func(unsigned int n)
{
if(n == 1)
return 0;
if(n % 2 == 0)
return 1 + func(n/2);
int x = func(n + 1);
int y = func(n - 1);
if(x > y)
return y+1;
else
return x+1;
}

假设n表示成二进制有x bit，能够看出计算复杂度为O(2^x)，也就是O(n)。
将n转换到二进制空间来看（好比7为111，6为110）：
- 若是最后一位是0，则对应于偶数，直接进行除2操做。
- 若是最后一位是1，状况则有些复杂。
**若是最后几位是???01，则有可能为???001，???1111101。在第一种状况下，显然应该-1；在第二种状况下-1和+1最终须要的步数相同。因此在???01的状况下，应该选择-1操做。
**若是最后几位是???011，则有可能为???0011，???11111011。在第一种状况下，+1和-1最终须要的步数相同；在第二种状况下+1步数更少些。因此在???011的状况下，应该选择+1操做。
**若是最后有更多的连续1，也应该选择+1操做。浏览器

若是最后剩下的各位都是1，则有11时应该选择-1；111时+1和-1相同；1111时应选择+1；大于四个1时也应该选择+1；缓存

[cpp] view plaincopy

int func(unsigned int n)
{
if(n == 1)
return 0;
if(n % 2 == 0)
return 1 + func(n/2);
if(n == 3)
return 2;
if(n&2)
return 1 + func(n+1);
else
return 1 + func(n-1);
}

由以上的分析可知，奇数的时候加1或减1，彻底取决于二进制的后两位，若是后两位是十、00那么确定是偶数，选择除以2，若是后两位是0一、11，那么选择结果会不同的，若是是*****01，那么选择减1，若是是*****11，那么选择加1，特殊状况是就是n是3的时候，选择减1操做。
非递归代码以下：安全

[cpp] view plaincopy

// 非递归写法
int func(int n)
{
int count = 0;
while(n > 1)
{
if(n % 2 == 0)
n >>= 1;
else if(n == 3)
n--;
else
{
if(n&2) // 二进制是******11时
n++;
else // 二进制是******01时
n--;
}
count++;
}
return count;
}

另一种写法以下：服务器

[cpp] view plaincopy

// 非递归写法
int func(int n)
{
int count = 0;
while(n > 1)
{
if(n % 2 == 0) // n % 4等于0或2
n >>= 1;
else if(n == 3)
n--;
else
n += (n % 4 - 2); // n % 4等于1或3
count++;
}
return count;
}

二、找到知足条件的数组
给定函数d(n)=n+n的各位之和，n为正整数，如d(78)=78+7+8=93。这样这个函数能够当作一个生成器，如93能够当作由78生成。
定义数A：数A找不到一个数B能够由d(B)=A，即A不能由其余数生成。如今要写程序，找出1至10000里的全部符合数A定义的数。
回答：
申请一个长度为10000的bool数组，每一个元素表明对应的值是否能够有其它数生成。开始时将数组中的值都初始化为false。
因为大于10000的数的生成数一定大于10000，因此咱们只需遍历1到10000中的数，计算生成数，并将bool数组中对应的值设置为true，表示这个数能够有其它数生成。
最后bool数组中值为false的位置对应的整数就是不能由其它数生成的。
三、一个大的含有50M个URL的记录，一个小的含有500个URL的记录，找出两个记录里相同的URL。数据结构

回答：
首先使用包含500个url的文件建立一个hash_set。
而后遍历50M的url记录，若是url在hash_set中，则输出此url并从hash_set中删除这个url。
全部输出的url就是两个记录里相同的url。
四、海量日志数据，提取出某日访问百度次数最多的那个IP。
回答：
若是日志文件足够的大，大到不能彻底加载到内存中的话。
那么能够考虑分而治之的策略，按照IP地址的hash(IP)%1024值，将海量日志存储到1024个小文件中。每一个小文件最多包含4M个IP地址。
对于每一个小文件，能够构建一个IP做为key，出现次数做为value的hash_map，并记录当前出现次数最多的1个IP地址。
有了1024个小文件中的出现次数最多的IP，咱们就能够轻松获得整体上出现次数最多的IP。
五、有10个文件，每一个文件1G，每一个文件的每一行都存放的是用户的query，每一个文件的query均可能重复。如何按照query的频度排序？
回答：
　1）读取10个文件，按照hash(query)%10的结果将query写到对应的文件中。这样咱们就有了10个大小约为1G的文件。任意一个query只会出如今某个文件中。
　2）对于1）中得到的10个文件，分别进行以下操做
　　-利用hash_map（query，query_count）来统计每一个query出现的次数。
　　-利用堆排序算法对query按照出现次数进行排序。
　　-将排序好的query输出的文件中。
　　这样咱们就得到了10个文件，每一个文件中都是按频率排序好的query。
　3）对2）中得到的10个文件进行归并排序，并将最终结果输出到文件中。函数

六、蚂蚁爬杆问题
　有一根27厘米长的细木杆，在第3厘米，7厘米，11厘米，17厘米，23厘米这五个位置上各有一只蚂蚁，木杆很细，不能同时经过两只蚂蚁，开始时，蚂蚁的头朝向左仍是右是任意的，他们只会朝前走或掉头，但不会后退，当两只蚂蚁相遇后，蚂蚁会同时掉头朝反方向走，假设蚂蚁们每秒钟能够走1厘米的距离。求全部蚂蚁都离开木杆的最小时间和最大时间。
　答案：
　两只蚂蚁相遇后，各自掉头朝相反方向走。若是咱们不考虑每一个蚂蚁的具体身份，这和两只蚂蚁相遇后，打个招呼继续向前走没有什么区别。
　全部蚂蚁都离开木杆的最小时间为
　max(min(3,27-3),min(7,27-7), min(11,27-11), min(17,27-17),min(23,27-23))=11
　全部蚂蚁都离开木杆的最大时间为
　max(max(3,27-3),max(7,27-7), max(11,27-11), max(17,27-17),max(23,27-23))=24url

七、当在浏览器中输入一个url后回车，后台发生了什么？好比输入url后，你看到了百度的首页，那么这一切是如何发生的呢？
回答：
　　简单来讲有如下步骤：
　　一、查找域名对应的IP地址。这一步会依次查找浏览器缓存，系统缓存，路由器缓存，ISPDNS缓存，根域名服务器。
　　二、向IP对应的服务器发送请求。
　　三、服务器响应请求，发回网页内容。
　　四、浏览器解析网页内容。
固然，因为网页可能有重定向，或者嵌入了图片，AJAX，其它子网页等等，这4个步骤可能反复进行屡次才能将最终页面展现给用户。

八、判断两棵树是否相等，请实现两棵树是否相等的比较，相等返回1，不然返回其余值，并说明算法复杂度。

数据结构为：

[cpp] view plaincopy

typedef struct TreeNode
{
char c;
TreeNode *leftchild;
TreeNode *rightchild;
}TreeNode;

函数接口为：int CompTree(TreeNode* tree1,TreeNode* tree2);
注：A、B两棵树相等当且仅当RootA->c==RootB-->c,并且A和B的左右子树相等或者左右互换相等。
递归方法：

[cpp] view plaincopy

bool CompTree(TreeNode *tree1, TreeNode *tree2)
{
if(tree1 == NULL && tree2 == NULL)
return true;
if(tree1 == NULL || tree2 == NULL)
return false;
if(tree1->c != tree2->c)
return false;
if( (CompTree(tree1->leftchild, tree2->leftchild) && CompTree(tree1->rightchild, tree2->rightchild)) || CompTree(tree1->leftchild, tree2->rightchild) && CompTree(tree1->rightchild, tree2->leftchild))
return true;
}

时间复杂度：
在树的第0层，有1个节点，咱们会进行1次函数调用；
在树的第1层，有2个节点，咱们可能会进行4次函数调用；
在树的第2层，有4个节点，咱们可能会进行16次函数调用；
....
在树的第x层，有2^x个节点，咱们可能会进行(2^x)^2次函数调用；
因此假设总节点数为n，则算法的复杂度为O(n^2)。

腾讯面试题：求一个论坛的在线人数，假设有一个论坛，其注册ID有两亿个，每一个ID从登录到退出会向一个日志文件中记下登录时间和退出时间，要求写一个算法统计一天中论坛的用户在线分布，取样粒度为秒。
回答：
　　一天总共有3600*24=86400秒。
　　定义一个长度为86400的整数数组intdelta[86400]，每一个整数对应这一秒的人数变化值，可能为正也可能为负。开始时将数组元素都初始化为0。
　　而后依次读入每一个用户的登陆时间和退出时间，将与登陆时间对应的整数值加1，将与退出时间对应的整数值减1。
　　这样处理一遍后数组中存储了每秒中的人数变化状况。
　　定义另一个长度为86400的整数数组intonline_num[86400]，每一个整数对应这一秒的论坛在线人数。
　　假设一天开始时论坛在线人数为0，则第1秒的人数online_num[0]=delta[0]。第n+1秒的人数online_num[n]=online_num[n-1]+delta[n]。
　　这样咱们就得到了一天中任意时间的在线人数。

九、三个警察和三个囚徒的过河问题

　　三个警察和三个囚徒共同旅行。一条河挡住了去路，河边有一条船，可是每次只能载2人。存在以下的危险：不管在河的哪边，当囚徒人数多于警察的人数时，将有警察被囚徒杀死。问题：请问如何肯定渡河方案，才能保证6人安全无损的过河。
答案：第一次：两囚徒同过，回一囚徒
第二次：两囚徒同过，回一囚徒
第三次：两警察同过，回一囚徒一警察（此时对岸还剩下一囚徒一警察，是安全状态）
第四次：两警察同过，回一囚徒（此时对岸有3个警察，是安全状态）
第五次：两囚徒同过，回一囚徒
第六次：两囚徒同过；over

十、从300万字符串中找到最热门的10条
搜索的输入信息是一个字符串，统计300万输入信息中的最热门的前10条，咱们每次输入的一个字符串为不超过255byte，内存使用只有1G。请描述思想，写出算法（c语言），空间和时间复杂度。
答案：
　　300万个字符串最多（假设没有重复，都是最大长度）占用内存3M*1K/4=0.75G。因此能够将全部字符串都存放在内存中进行处理。
　　可使用key为字符串（事实上是字符串的hash值），值为字符串出现次数的hash来统计每一个每一个字符串出现的次数。并用一个长度为10的数组/链表来存储目前出现次数最多的10个字符串。
　　这样空间和时间的复杂度都是O(n)。
十一、如何找出字典中的兄弟单词。给定一个单词a，若是经过交换单词中字母的顺序能够获得另外的单词b，那么定义b是a的兄弟单词。如今给定一个字典，用户输入一个单词，如何根据字典找出这个单词有多少个兄弟单词？
答案：
　　使用hash_map和链表。
　　首先定义一个key，使得兄弟单词有相同的key，不是兄弟的单词有不一样的key。例如，将单词按字母从小到大从新排序后做为其key，好比bad的key为abd，good的key为dgoo。
　　使用链表将全部兄弟单词串在一块儿，hash_map的key为单词的key，value为链表的起始地址。
　　开始时，先遍历字典，将每一个单词都按照key加入到对应的链表当中。当须要找兄弟单词时，只需求取这个单词的key，而后到hash_map中找到对应的链表便可。
　　这样建立hash_map时时间复杂度为O(n)，查找兄弟单词时时间复杂度是O(1)。
十二、找出数组中出现次数超过一半的数，如今有一个数组，已知一个数出现的次数超过了一半，请用O(n)的复杂度的算法找出这个数。
答案1：
　　建立一个hash_map，key为数组中的数，value为此数出现的次数。遍历一遍数组，用hash_map统计每一个数出现的次数，并用两个值存储目前出现次数最多的数和对应出现的次数。
　　这样能够作到O(n)的时间复杂度和O(n)的空间复杂度，知足题目的要求。
　　可是没有利用“一个数出现的次数超过了一半”这个特色。也许算法还有提升的空间。
答案2：
　　使用两个变量A和B，其中A存储某个数组中的数，B用来计数。开始时将B初始化为0。
　　遍历数组，若是B=0，则令A等于当前数，令B等于1；若是当前数与A相同，则B=B+1；若是当前数与A不一样，则令B=B-1。遍历结束时，A中的数就是要找的数。
　　这个算法的时间复杂度是O(n)，空间复杂度为O(1)。

1三、找出被修改过的数字
n个空间（其中n<1M），存放a到a+n-1的数，位置随机且数字不重复，a为正且未知。如今第一个空间的数被误设置为-1。已经知道被修改的数不是最小的。请找出被修改的数字是多少。
　　例如：n=6，a=2，原始的串为5,3,7,6,2,4。如今被别人修改成-1,3,7,6,2,4。如今但愿找到5。
回答：
　　因为修改的数不是最小的，因此遍历第二个空间到最后一个空间能够获得a的值。
　　a到a+n-1这n个数的和是total=na+(n-1)n/2。
　　将第二个至最后一个空间的数累加得到sub_total。
　　那么被修改的数就是total-sub_total。

1四、设计DNS服务器中cache的数据结构。
　　要求设计一个DNS的Cache结构，要求可以知足每秒5000以上的查询，知足IP数据的快速插入，查询的速度要快。（题目还给出了一系列的数据，好比：站点数总共为5000万，IP地址有1000万，等等）
回答：
　　DNS服务器实现域名到IP地址的转换。
　　每一个域名的平均长度为25个字节（估计值），每一个IP为4个字节，因此Cache的每一个条目须要大概30个字节。
　　总共50M个条目，因此须要1.5G个字节的空间。能够放置在内存中。（考虑到每秒5000次操做的限制，也只能放在内存中。）
　　能够考虑的数据结构包括hash_map，字典树，红黑树等等。
1五、找出给定字符串对应的序号。
　　序列Seq=[a,b,…z,aa,ab…az,ba,bb,…bz,…,za,zb,…zz,aaa,…]相似与excel的排列，任意给出一个字符串s=[a-z]+(由a-z字符组成的任意长度字符串），请问s是序列Seq的第几个。
回答：
　　注意到每满26个就会向前进一位，相似一个26进制的问题。
　　好比ab，则位置为26*1+2；
　　好比za，则位置为26*26+1；
　　好比abc，则位置为26*26*1+26*2+3；
1六、找出第k大的数字所在的位置。写一段程序，找出数组中第k大小的数，输出数所在的位置。例如{2，4，3，4，7}中，第一大的数是7，位置在4。第二大、第三大的数都是4，位置在一、3随便输出哪个都可。
答案：
先找到第k大的数字，而后再遍历一遍数组找到它的位置。因此题目的难点在于如何最高效的找到第k大的数。
　咱们能够经过快速排序，堆排序等高效的排序算法对数组进行排序，而后找到第k大的数字。这样整体复杂度为O(NlogN)。
　咱们还能够经过二分的思想，找到第k大的数字，而没必要对整个数组排序。从数组中随机选一个数t，经过让这个数和其它数比较，咱们能够将整个数组分红了两部分而且知足，{x,xx,...,t}<{y,yy,...}。
　在将数组分红两个数组的过程当中，咱们还能够记录每一个子数组的大小。这样咱们就能够肯定第k大的数字在哪一个子数组中。
　而后咱们继续对包含第k大数字的子数组进行一样的划分，直到找到第k大的数字为止。
　平均来讲，因为每次划分都会使子数组缩小到原来1/2，因此整个过程的复杂度为O(N)。

1七、给40亿个不重复的unsigned int的整数，没排过序的，而后再给几个数，如何快速判断这几个数是否在那40亿个数当中?
答案：
　　unsigned int的取值范围是0到2^32-1。咱们能够申请连续的2^32/8=512M的内存，用每个bit对应一个unsigned int数字。首先将512M内存都初始化为0，而后每处理一个数字就将其对应的bit设置为1。当须要查询时，直接找到对应bit，看其值是0仍是1便可。

1八、在一个文件中有10G个整数，乱序排列，要求找出中位数。内存限制为2G。
回答：
　　不妨假设10G个整数是64bit的。
　　2G内存能够存放256M个64bit整数。
　　咱们能够将64bit的整数空间平均分红256M个取值范围，用2G的内存对每一个取值范围内出现整数个数进行统计。这样遍历一边10G整数后，咱们便知道中数在那个范围内出现，以及这个范围内总共出现了多少个整数。
　　若是中数所在范围出现的整数比较少，咱们就能够对这个范围内的整数进行排序，找到中数。若是这个范围内出现的整数比较多，咱们还能够采用一样的方法将此范围再次分红多个更小的范围（256M=2^28，因此最多须要3次就能够将此范围缩小到1，也就找到了中数）。
1九、时分秒针在一天之类重合多少次？（24小时）

2次

而时针和分针重合了22次。

20、将多个集合合并成没有交集的集合。　　给定一个字符串的集合，格式如：{aaabbbccc}，{bbbddd}，{eeefff}，{ggg}，{dddhhh}要求将其中交集不为空的集合合并，要求合并完成后的集合之间无交集，例如上例应输出{aaabbbcccdddhhh}，{eeefff}，{ggg}。　　（1）请描述你解决这个问题的思路；　　（2）请给出主要的处理流程，算法，以及算法的复杂度　　（3）请描述可能的改进。回答：　　集合使用hash_set来表示，这样合并时间复杂度比较低。　　一、给每一个集合编号为0，1，2，3...　　二、建立一个hash_map，key为字符串，value为一个链表，链表节点为字符串所在集合的编号。遍历全部的集合，将字符串和对应的集合编号插入到hash_map中去。　　三、建立一个长度等于集合个数的int数组，表示集合间的合并关系。例如，下标为5的元素值为3，表示将下标为5的集合合并到下标为3的集合中去。开始时将全部值都初始化为-1，表示集合间没有互相合并。在集合合并的过程当中，咱们将全部的字符串都合并到编号较小的集合中去。　遍历第二步中生成的hash_map，对于每一个value中的链表，首先找到最小的集合编号（有些集合已经被合并过，须要顺着合并关系数组找到合并后的集合编号），而后将链表中全部编号的集合都合并到编号最小的集合中（经过更改合并关系数组）。　　四、如今合并关系数组中值为-1的集合即为最终的集合，它的元素来源于全部直接或间接指向它的集合。　　算法的复杂度为O(n)，其中n为全部集合中的元素个数。　　题目中的例子：　　0:{aaabbbccc}　　1:{bbbddd}　　2:{eeefff}　　3:{ggg}　　4:{dddhhh}　　生成的hash_map，和处理完每一个值后的合并关系数组分别为　　aaa:0。[-1,-1,-1,-1,-1]　　bbb:0,1。[-1,0,-1,-1,-1]　　ccc:0。[-1,0,-1,-1,-1]　　ddd:1,4。[-1,0,-1,-1,0]　　eee:2。[-1,0,-1,-1,0]　　fff:2。[-1,0,-1,-1,0]　　ggg:3。[-1,0,-1,-1,0]　　hhh:4。[-1,0,-1,-1,0]　　因此合并完后有三个集合，第0，1，4个集合合并到了一块儿，　2一、平面内有11个点，由它们连成48条不一样的直，由这些点可连成多少个三角形？解析：首先你要分析，平面中有11个点，若是这些点中任意三点都没有共线的，那么一共应该有C(11，2)=55，但是，题目中说能够链接成48条直线，那么这11个点中一定有多点共线的状况。 55-48=7，从7来分析：假设有一组三个点共线，那么能够组成的直线在55的基础上应该减去C(3，2)-1=2 2*3=6≠7，所以，能够判定不只有三点共线的，也可能有四个点共线的可能。假设有一组四个点共线，那么能够组成的直线在55的基础上应该减去C(4，2)-1=5 （备注，五个点共线的可能不存在，由于，C(5，2)-1=9>7，故不可能有五条直线共线。）所以，三点共线少2条，4点共线少5条，只有一个4点共线，一个3点共线才能知足条件，其他状况不能知足少了7条直线。那么，这11个点能组成的三角形的个数为，C(11，3)-C(3，3)-C(4，3)=165-1-4=160 （备注，三个点共线不能组成三角形）