基于jieba分词的TF-IDF提取关键词算法中，根据不一样领域自定义所使用逆向文件频率（IDF）的文本语料库

时间 2020-01-22

标签基于 jieba 分词 idf 提取关键词算法根据不一样领域自定义使用逆向文件频率文本语料库栏目搜索引擎繁體版

原文原文链接

TF-IDF的概念 TF（Term Frequency，缩写为TF）也就是词频，即一个词在文中出现的次数，统计出来就是词频TF，显而易见，一个词在文章中出现不少次，那么这个词确定有着很大的做用，在提取关键词以前，因为待提取的语句中会有不少无用词，例如“的”，“我”等等，因此我我的理解在提取关键词以前的简单步骤以下：python 待分析语句------>分词------>去除停用词------>提取

>>阅读原文<<