大数据和空间限制问题

(一).只用2GB内存在20亿个整数中找到出现次数最多的数 【题目】有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数。 【分析】通过哈希表对20亿个整数进行词频统计。哈希表的key是32位的整数,value最坏打算是20亿个(4B)所以一条<k,v>记录是8B。 最多20亿条记录,需要的内存远超于2GB!一条记录需要8B存储,当哈希表的记录数为2亿个时,至少需要1.6GB的内存
相关文章
相关标签/搜索