找到100亿个URL中的重复URL以及搜索词汇的topK问题

有一个包含100亿个URL的文件,假设每个URL占用64B,请找出其中所有重复的URL。 这类问题一种解决方案(我只想到了这一种)  将文件通过哈希函数成多个小的文件,由于哈希函数所有重复的URL只可能在同一个文件中,在每个文件中利用一个哈希表做次数统计。就能找到重复的URL。这时候要注意的就是给了多少内存,我们要根据文件大小结合内存大小决定要分割多少文件 topK问题和重复URL其实是一样的重复
相关文章
相关标签/搜索