基于map-reduce的TopK词频统计

查询全部记录中搜索频次最高的30个关键词。 主要分两个步骤,首先多个mapper分别处理全部数据中的一部分关键词数据,而后汇总到reducer作词频统计。java CountWordMapper 在Mapper中处理每一小块数据,使用HashMap存储关键字及其频次,能够节省时间,key为查询的关键字。Mapper返回一个<Text , LongWritable>的列表,存储当前文件块中的关键字及
相关文章
相关标签/搜索