经典面试问题: Top K 之 ---- 海量数据找出现次数最多或，不重复的。

时间 2019-11-08

标签经典面试问题海量数据出现次数最多重复栏目快乐工作繁體版

原文原文链接

做者：林冠宏 / 指尖下的幽灵java

掘金：https://juejin.im/user/587f0dfe128fe100570ce2d8git

博客：http://www.cnblogs.com/linguanh/程序员

GitHub ： https://github.com/af913337456/github

腾讯云专栏： https://cloud.tencent.com/developer/user/1148436/activities面试

`仅列举一些解决方法，事实的解决方案是很是多的。`

这些问题都是面临着有以下的考虑：算法

内存不足以放下全部的数。
机器CPU的核数不够。
...

问这些问题的意义：

若是能把这些问题答好，必然是综合计算机各方面的知识，从内存到数据结构甚至还涉及到硬件，方法面面。至此，我给它定位是，综合考量一个程序员计算机基础能力的面试题。数组

一，找出不重复的

在2.5亿个正整数中找出不重复的整数。数据结构

思路一：

`分治法 + HashMap` (HashMap 不要局限在 Java 语言)

将 2.5 亿个整数，分批操做，例如分红 250 万一批，共100批次。每批使用循环遍历一次，存入 HashMap<int1,int2> 里面，int1 对应这个数，int2 对应它出现的次数，没出现就默认是 1 次。每操做完一批，就进行当前的 HashMap 的去重操做，读出 int2 > 1 的，排除掉。接下来的批次，以此类推，得出 100，剩下的天然就是不重复的。函数

好了，咱们如今来计算下上面这个方案的双间复杂度，`时间` & `空间`

时间复杂度：250W * 100轮 + 其它批次。对于多核机器，能够启动线程操做。spa

空间复杂度：使用 int 来进行存每个数，保证不溢出状况下，那么就是 --> Key + Value : (250W * 4字节，4Byte)/(1024*1024) ~ (Key + 9.5MB) 内存。

思路二：

`位图法 Bitmap`(一个 bit 仅会是 0 或 1)

对于此题，咱们能够设计每两个 bit 位，标示一个数的出现状况。00表示没有出现，01表示出现一次，10表示出现屡次。2.5 亿个正整数，首先咱们要知道是正整数，咱们就不须要考虑负数，也就是无符号，无符号的整形占四个字节。

咱们以这个为例子，开始计算`位图`内存。

1B = 8b，4B = 32b，它能够表示的最大的整数是 2^32-1(不溢出)，也就是说，咱们须要 2^32-1 ~ 2^32 个位来表示这2.5亿个数。咱们上面说了，每一个状态是两个位，那么总共就是2^32*2个位。

那么咱们能够一次申请的位图内存是：2^32*2 bit ，(2^32*2)/(1024*1024*8) = 1GB 便可。固然，咱们也能够加上分治的思路，分批处理，不用直接用 1G，哈哈。

那么这样作的状况下怎样找到这个数呢？我举个例子，例如咱们此时读入一个数是：64，64对应的所在bit位是：64*2=128，也就是说第 127 和 128 位共同标示了它的出现状态。其余的以此类推。每当咱们读出一个数，咱们就这样去找到它对应的bit位，先读出bit位的值，再作记录，已是01的，再次来到，那么就应该修改成10。最后的咱们这样得出结果：扫描整个位图，若是是10的，就下标/2得出这个数。

二，找出出现次数最多的

第一题：找出一篇文章中，出现次数最多的单词。

第二题：10亿个正整数找出重复次数最多的100个整数。

思路一：

`分治法 + HashMap`

没错，分治法 + HashMap 这个方法就是能够用来处理不少 Top K问题的。

对于问题一，其实比较简单，这道题也是我 2016 年腾讯第三轮技术面要求当场写代码的题目。咱们能够先判断，这篇文章可能很长，也可能很短，那么咱们应该规定一个字数的标志，做为一批的字数限制，例如100个文字。每100个文字是一批的处理极限，咱们先读出100个，100之内的就直接所有读出。读出后，打散成字符串，例如英语文章它以空格和一些符号分割。使用split方法就能够打散。此时咱们得出一个字符串数组String[] array，有了这个以后就能够参考 找出不重复 问题的解法。每批使用循环遍历一次，存入 HashMap<String,Integer> 里面，string 对应这个数的字符串，Integer 对应它出现的次数，最后最大的天然就是出现次数最多的。下面直接给出个 Demo 函数。

// LinGuanHong
public static void search(String limitText){
    String maxWord = "";
    int    maxTime = 0;
    String[] words = limitText.split(" |\\.|,");
    int length = words.length;
    HashMap<String,Integer> one = new HashMap<>();
    for(int j=0;j<length;j++){
        Integer number = one.get(words[j]);
        if(number != null){
            number = number + 1;
            /** 找到次数加 1 */
            one.put(words[j],number);
            if(maxTime < number){
                maxTime = number;
                maxWord = words[j];
            }
        }else{
            /** 没找到，赋值 1 */
            one.put(words[j],1);
        }
    }
    System.out.println("maxTime is :"+maxTime+" ; maxWord is :"+maxWord);
}
复制代码

第二题对应的 分治法 + HashMap

按照前面的案例，咱们首先同样是要把这十亿个数分红不少份。例如 1000份，每份 10万。而后使用 HashMap<int,int> 来统计。在每一次的统计中，咱们能够找出最大的100个数，为何只找10万中的100个啊？由于咱们有1000份，其它份里面的第二大多是这份里最小的。这样所有加起来都100*1000个数了。OK，在咱们找出这100*1000个侯选数后，继续分治处理，或者直接进行排序，若是直接排序就是10W个数。排序算法能够选快排等之类的，前100个就是结果。

思路二：

`位图法 Bitmap`

第一题，略。不是纯数字的，不建议采用位图法。

第二题：

有了 找出不重复的 的例子作基础。咱们此时直接知道这题的 正整数 最大也是只能到 2^23-1，对于这道题，咱们不须要乘2，因此咱们申请的内存大小也是512MB。这样咱们就能使用这个位图把全部数都存进去。若是出现了一次，该bit位 = 1，没有就是0。屡次出现的话，咱们就不能累加到bit位里面了，由于它最大就是1。这时候咱们会发现，出现屡次的话，是没法经过bit位进行累加记录的。因此，此题也是不适合采用位图法。

其余的

例如问：XXXXX中找出最大的一个，最小的一个，最大的几个，最小的几个。这类的就可使用分治法+最小堆/最大堆秒之。

经典面试问题: Top K 之 ---- 海量数据找出现次数最多或，不重复的。

仅列举一些解决方法，事实的解决方案是很是多的。

问这些问题的意义：

一，找出不重复的

思路一：

分治法 + HashMap (HashMap 不要局限在 Java 语言)

好了，咱们如今来计算下上面这个方案的双间复杂度，时间 & 空间

思路二：

位图法 Bitmap(一个 bit 仅会是 0 或 1)

咱们以这个为例子，开始计算位图内存。

二，找出出现次数最多的

思路一：

分治法 + HashMap

思路二：

位图法 Bitmap

其余的

完矣

`仅列举一些解决方法，事实的解决方案是很是多的。`

`分治法 + HashMap` (HashMap 不要局限在 Java 语言)

好了，咱们如今来计算下上面这个方案的双间复杂度，`时间` & `空间`

`位图法 Bitmap`(一个 bit 仅会是 0 或 1)

咱们以这个为例子，开始计算`位图`内存。

`分治法 + HashMap`

`位图法 Bitmap`