经典算法-海量数据处理算法（top K问题）

时间 2019-11-16

标签经典算法海量数据处理问题栏目系统性能繁體版

原文原文链接

举例

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。排序

思路

首先把文件分开
针对每一个文件hash遍历，统计每一个词语的频率
使用堆进行遍历
把堆归并起来

具体的方案

1.分治：顺序读文件中，对于每一个词c，取hash(c)%2000，而后按照该值存到2000个小文件中。这样每一个文件大概是500k左右。内存

注意：

若是其中的有的文件超过了1M大小，还能够按照相似的方法继续往下分，直到分解获得的小文件的大小都不超过1M。hash

2.hash遍历：对每一个小文件，用hash的方式统计每一个文件中出现的词以及相应的频率class

3.堆遍历：用最小堆取出出现频率最大的100个词，并把100个词及相应的频率存入文件，这样又获得了5000个文件。遍历

4.归并整合方法

下一步就是把这5000个文件进行归并（相似与归并排序）的过程了。统计

相关文章

相关标签/搜索

算法 - Lru算法

图解经典算法题

算法 - 雪花算法

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<