找到100亿个URL中的重复URL以及搜索词汇的topK问题

时间 2021-01-17

原文原文链接

有一个包含100亿个URL的文件，假设每个URL占用64B，请找出其中所有重复的URL。这类问题一种解决方案（我只想到了这一种）将文件通过哈希函数成多个小的文件，由于哈希函数所有重复的URL只可能在同一个文件中，在每个文件中利用一个哈希表做次数统计。就能找到重复的URL。这时候要注意的就是给了多少内存，我们要根据文件大小结合内存大小决定要分割多少文件 topK问题和重复URL其实是一样的重复

>>阅读原文<<