统计外站的搜索关键词的词频

   统计外站的搜索关键词的词频       经过外站的连接主要是百度,谷歌,soso等,天天都有经过记录在日志文件中,天天会运行程序进行统计。 天天产生有10多个文件,每一个文件1G左右, 每一个文件的每一行都存放的是用户的query,每一个文件的query均可能重复。要按照解析query中的关键词,并对统计其频度,取出搜索次数最多的前1000个关键词。 第一次直接遍历全部文件并按照Map<St
相关文章
相关标签/搜索