Lucene 6.0 提取新闻关键词Top-N

1、需求 给出一篇新闻文档,统计出现频率最高的有哪些词语。java 2、思路 关于文本关键词提取的算法有不少,开源工具也不止一种。这里只介绍如何从Lucene索引中提取词项频率的TopN。索引过程的本质是一个词条化的生存倒排索引的过程,词条化会从文本中去除标点符号、停用词等,最后生成词项。在代码中实现的思路是使用IndexReader的getTermVector获取文档的某一个字段的Terms,从
相关文章
相关标签/搜索