有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。排序
1.分治: 顺序读文件中,对于每一个词c,取hash(c)%2000,而后按照该值存到2000个小文件中。这样每一个文件大概是500k左右。内存
若是其中的有的文件超过了1M大小,还能够按照相似的方法继续往下分,直到分解获得的小文件的大小都不超过1M。hash
2.hash遍历: 对每一个小文件,用hash的方式统计每一个文件中出现的词以及相应的频率class
3.堆遍历: 用 最小堆取出出现频率最大的100个词,并把100个词及相应的频率存入文件,这样又获得了5000个文件。遍历
4.归并整合方法
下一步就是把这5000个文件进行归并(相似与归并排序)的过程了。统计