LDA相关改进

在原始基础上,做了如下改进: tf-idf本来是自己根据公式编的算法,现在改成sklearn自带的tf-idf,但这个出来的效果是每篇文章根据得分从高到低排列,LDA准备tokens时,应该是所有文章的关键词排序;textrank用的是textrank4zh 在使用LDA之前,每篇文章的关键词利用tf-idf及textrank打分的方式,由高到低排列,剔除停用词及不显示主题意义的词性,由此产生的t
相关文章
相关标签/搜索