基于jieba分词的TF-IDF提取关键词算法中自定义所使用逆向文件频率(IDF)的文本语料库

TF-IDF的概念 TF(Term Frequency,缩写为TF)也就是词频,即一个词在文中出现的次数,统计出来就是词频TF,显而易见,一个词在文章中出现很多次,那么这个词肯定有着很大的作用,在提取关键词之前,由于待提取的语句中会有很多无用词,例如“的”,“我”等等,所以我个人理解在提取关键词之前的简单步骤如下: 待分析语句------>分词------>去除停用词------>提取关键词 使用
相关文章
相关标签/搜索