LDA相关改进

时间 2021-01-21

原文原文链接

在原始基础上，做了如下改进： tf-idf本来是自己根据公式编的算法，现在改成sklearn自带的tf-idf，但这个出来的效果是每篇文章根据得分从高到低排列，LDA准备tokens时，应该是所有文章的关键词排序；textrank用的是textrank4zh 在使用LDA之前，每篇文章的关键词利用tf-idf及textrank打分的方式，由高到低排列，剔除停用词及不显示主题意义的词性，由此产生的t