TF-IDF算法

TF-IDF算法 (Term Frequency-Inverse Document Frequency)即词频-逆文档频率,通常用在文本描述中。主要思想是经过统计文章的关键词频率,来衡量和某个主题的相近程度或者计算文章之间的类似性。python 计算步骤 (1)经过停用词将文章从字流分为词流,这儿推荐python的jieba库,下面给出一个使用示例:web import jieba strin
相关文章
相关标签/搜索