做者:林冠宏 / 指尖下的幽灵java
掘金:https://juejin.im/user/587f0dfe128fe100570ce2d8git
博客:http://www.cnblogs.com/linguanh/程序员
GitHub : https://github.com/af913337456/github
腾讯云专栏: https://cloud.tencent.com/developer/user/1148436/activities面试
仅列举一些解决方法,事实的解决方案是很是多的。
这些问题都是面临着有以下的考虑:算法
若是能把这些问题答好,必然是综合计算机各方面的知识,从内存到数据结构甚至还涉及到硬件,方法面面。至此,我给它定位是,综合考量一个程序员计算机基础能力的面试题。数组
在2.5亿
个正整数
中找出不重复的整数。数据结构
分治法 + HashMap
(HashMap 不要局限在 Java 语言)将 2.5 亿个整数,分批操做,例如分红 250 万一批,共100批次。每批使用循环遍历一次,存入 HashMap<int1,int2>
里面,int1
对应这个数,int2
对应它出现的次数,没出现就默认是 1 次。每操做完一批,就进行当前的 HashMap
的去重操做
,读出 int2 > 1
的,排除掉。接下来的批次,以此类推,得出 100,剩下的天然就是不重复的。函数
时间
& 空间
时间复杂度
:250W * 100轮 + 其它批次
。对于多核机器,能够启动线程操做。spa
空间复杂度
:使用 int 来进行存每个数,保证不溢出状况下,那么就是 --> Key + Value : (250W * 4字节,4Byte)/(1024*1024) ~ (Key + 9.5MB)
内存。
位图法 Bitmap
(一个 bit 仅会是 0 或 1)对于此题,咱们能够设计每两个 bit
位,标示一个数的出现状况。00
表示没有出现,01
表示出现一次,10
表示出现屡次。2.5 亿个正整数,首先咱们要知道是正整数
,咱们就不须要考虑负数,也就是无符号,无符号的整形占四个字节
。
位图
内存。1B = 8b,4B = 32b,它能够表示的最大
的整数是 2^32-1(不溢出)
,也就是说,咱们须要 2^32-1 ~ 2^32
个位
来表示这2.5
亿个数。咱们上面说了,每一个状态
是两个位
,那么总共就是2^32*2
个位。
那么咱们能够一次申请的 位图 内存是:2^32*2 bit ,(2^32*2)/(1024*1024*8) = 1GB
便可。固然,咱们也能够加上分治
的思路,分批处理,不用直接用 1G,哈哈。
那么这样作的状况下怎样找到这个数呢?我举个例子,例如咱们此时读入一个数是:64
,64
对应的所在bit
位是:64*2=128
,也就是说第 127
和 128
位共同标示了它的出现状态
。其余的以此类推。每当咱们读出一个数,咱们就这样去找到它对应的bit位
,先读出bit位
的值,再作记录,已是01
的,再次来到,那么就应该修改成10
。最后的咱们这样得出结果:扫描整个位图,若是是10
的,就下标/2
得出这个数。
第一题:找出一篇文章中,出现次数最多的单词。
第二题:10亿个正整数
找出重复次数最多的100个整数。
分治法 + HashMap
没错,分治法 + HashMap
这个方法就是能够用来处理不少 Top K
问题的。
对于问题一
,其实比较简单,这道题也是我 2016 年腾讯第三轮技术面要求当场写代码的题目
。咱们能够先判断,这篇文章可能很长,也可能很短,那么咱们应该规定一个字数的标志
,做为一批的字数限制,例如100
个文字。每100
个文字是一批的处理极限,咱们先读出100
个,100之内的就直接所有读出。读出后,打散成字符串,例如英语文章它以空格和一些符号分割。使用split
方法就能够打散。此时咱们得出一个字符串数组String[] array
,有了这个以后就能够参考 找出不重复
问题的解法。每批使用循环遍历一次,存入 HashMap<String,Integer>
里面,string
对应这个数的字符串,Integer
对应它出现的次数,最后最大的天然就是出现次数最多的。下面直接给出个 Demo 函数
。
// LinGuanHong
public static void search(String limitText){
String maxWord = "";
int maxTime = 0;
String[] words = limitText.split(" |\\.|,");
int length = words.length;
HashMap<String,Integer> one = new HashMap<>();
for(int j=0;j<length;j++){
Integer number = one.get(words[j]);
if(number != null){
number = number + 1;
/** 找到次数加 1 */
one.put(words[j],number);
if(maxTime < number){
maxTime = number;
maxWord = words[j];
}
}else{
/** 没找到,赋值 1 */
one.put(words[j],1);
}
}
System.out.println("maxTime is :"+maxTime+" ; maxWord is :"+maxWord);
}
复制代码
第二题对应的 分治法 + HashMap
按照前面的案例,咱们首先同样是要把这十亿
个数分红不少份。例如 1000份
,每份 10万
。而后使用 HashMap<int,int>
来统计。在每一次的统计中,咱们能够找出最大的100个数
,为何只找10万
中的100个啊?由于咱们有1000份
,其它份里面的第二大多是这份里最小的。这样所有加起来都100*1000个
数了。OK,在咱们找出这100*1000
个侯选数后,继续分治处理,或者直接进行排序,若是直接排序就是10W个数
。排序算法能够选快排
等之类的,前100个
就是结果。
位图法 Bitmap
第一题,略。不是纯数字的,不建议采用位图法
。
第二题:
有了 找出不重复的
的例子作基础。咱们此时直接知道这题的 正整数
最大也是只能到 2^23-1
,对于这道题,咱们不须要乘2
,因此咱们申请的内存大小也是512MB
。这样咱们就能使用这个位图
把全部数都存进去。若是出现了一次,该bit位 = 1
,没有就是0。屡次出现的话,咱们就不能累加到bit位
里面了,由于它最大就是1
。这时候咱们会发现,出现屡次的话,是没法经过bit位
进行累加记录的。因此,此题也是不适合采用位图法
。
例如问:XXXXX中找出最大的一个,最小的一个,最大的几个,最小的几个
。这类的就可使用分治法+最小堆/最大堆
秒之。