文本关键词提取算法总结

1.TF-IDFhtml 昨天给你们演示简单的文本聚类,但要给每一个聚类再提取一两个关键词用于表示该聚类。咱们仍是用TFIDF算法来作,由于这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内全部文章的词频,而不是本文章内出现的次数,IDF仍是在全部文章里出现的倒文档频率。 原理:一、先给本聚类内的全部文档进行分词,而后用一个字典保存每一个词出现的次数 二、遍历每一个词,获得每一个词在全部
相关文章
相关标签/搜索