NLP----关键词提取算法(TextRank,TF/IDF)

参考书目:python天然语言处理实战——核心技术与算法python TF/IDF 基本思想:TF是计算一个词在一篇文档中出现的频率,IDF是一个词在多少篇文档中出现过,显然TF越高证实这个词在这篇文章中的表明性就越强,而INF越低则证实这个词在具备越强的区分能力。所以中和这两个数,就能较好地算出文档的关键词。算法 关键公式app |D_i|是文档中出现词i的文档数量,|D|是文档数编码 附上书上
相关文章
相关标签/搜索