海量数据处理

1)给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址 2)与上题条件相同,如何找到top K的IP? 3)给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确  算法和近似算法! 4)给上千个文件,每个文件大小为1K—100M。给n个词,设计算法对每个词找到所有包含它的文件,你只有100K内存!  5)有
相关文章
相关标签/搜索