关于某日访问次数最多的IP的topK问题的三种解法

题目描述 在july大神的博客中,看到这样两道题:html 1. 海量日志数据,提取出某日访问百度次数最多的那个IP。 2. 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但若是除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 如今我将两题结合一下:python 假若有1千万
相关文章
相关标签/搜索