海量数据面试题

哈希切割 给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 思路 : 1 . 使用哈希切割 , 将100G大小的文件分成1000分小文件 , 2 . 使用 HashStr( IP )%1000 将每个文件上的IP地址映射到哈希表中 , 然后将IP地址转化成整数形式 3 . 使用Key Value 模型 , 将IP地址出现的次数保存起来 4 .
相关文章
相关标签/搜索