海量数据处理

时间 2020-12-27

原文原文链接

当我们拿到一个题是海量数据问题，内存不能够同时处理，首先考虑特殊数据结构能否处理比如：位图和布隆过滤器。如果不能处理我们一般需要把大的文件哈西切割为几份，在分别处理。哈希切割——top K问题给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？如何找到top K的IP？如何直接用Linux系统命令实现？我的思路：100G大小的文件，而且

>>阅读原文<<