贝叶斯应用_文本分析_理论支持

一:停用词 语料中大量出现却没什么作用的词 二:词频(TF) 词频(TF)=某词在文章中的出现次数 / 该文章所有词的出现次数 三:逆文档频率(IDF) 逆文档频率(IDF)=log( 语料库的文档总数 / (包含该词的文档树+1) ) 四:Tf-idf 关键词提取 Tf-idf=TF * IDF 五:相似度 对需要求相似度的两个中文句子进行 分词-构建语料库-词频-词频向量-求余弦 六:相似度举
相关文章
相关标签/搜索