如何从大量数据中找出高频词?

如何从大量数据中找出高频词? 题目描述 有一个 1GB 大小的文件,文件里每一行是一个词,每一个词的大小不超过 16B,内存大小限制是 1MB,要求返回频数最高的 100 个词(Top 100)。web 解答思路 因为内存限制,咱们依然没法直接将大文件的全部词一次读到内存中。所以,一样能够采用分治策略,把一个大文件分解成多个小文件,保证每一个文件的大小小于 1MB,进而直接将单个小文件读取到内存中
相关文章
相关标签/搜索