布隆过滤器和海量数据面试题

哈希切割topK问题 给一个超过100G大小的logfile,log中存着ip地址,设计算法找到出现次数最多的ip地址,与上题条件相同,如何找到topK的ip?如何直接用Linux系统命令实现?算法 (1)topK的ip设计 思路:使用堆索引 (2)寻找次数最多ip 思路:分割成多个文件,分别多每一个文件进行统计,统计方式用hash,ip为key,次数为value,而后就能够统计出每一个ip出现的
相关文章
相关标签/搜索