算法-海量数据处理

海量数据处理 1. 散列分治 对于海量数据,由于没办法将其一次性装入内存进行处理,不得不将其通过散列映射的方法分割成相应的小块数据,然后再对各个小块数据通过hash_map进行统计或其他操作。 1.1 寻找 Top K 问题 提取出某日访问百度次数最多的那个IP 解决问题三个步骤: 分而治之/散列映射。现将该日访问的IP全部提取出来,逐个写入到一个大文件中,然后采取散列映射的方式如(hash(IP
相关文章
相关标签/搜索