文本挖掘学习(三) 关键词提取、TF-IDF

1.TF-IDF算法 基本思想:python 若是一个词在一篇文档中出现的频率高,而且在语料库中其余文档中不多出现,则认为这个词有很好的类别区分功能 词频TF:Term Frequency,衡量一个term在文档中出现的有多频繁算法 平均而言出现越频繁的词,其重要性可能就越高 考虑到文章长度的差别,须要对词频作标准化code TF(t) = (t出如今文档中的次数) / (文档中term总数) T
相关文章
相关标签/搜索