海量数据处理思路

1、给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址。 思路分析: 1.使用字符串哈希算法将相同IP 分配到一个文件中。将这些IP分配到1000个文件中。 2.由于字符串哈希算法会出现误差。所以再统计每个人文件中的top3 IP(使用Key_Value模型)。 3.将每个文件中的top3合并,再找出出现次数最多的IP即可。 2、给定100亿个整
相关文章
相关标签/搜索