大文件中返回频数最高的100个词

1.题目描述 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词面试 2.思考过程 (1)参见个人其余大数据面试题博文。此处1G文件远远大于1M内存,分治法,先hash映射把大文件分红不少个小文件,具体操做以下:读文件中,对于每一个词x,取hash(x)%5000,而后按照该值存到5000个小文件(记为f0,f1,...,f499
相关文章
相关标签/搜索