利用python对中文文本数据进行LDA训练、计算几率距离

数据来自于“豆瓣读书”25名用户标注图书的一些标签(已通过分词、去停用词、去除不规范的标签),目的主要是经过对标签利用LDA得出25名用户在各主题上的几率分布,而后利用JS散度计算几率距离,从而计算25名用户的类似度,找出某个用户的近邻用户集。 (代码来自于网络非原创,只是在此基础上修改,部分代码来自http://blog.csdn.net/eastmount/article/details/50
相关文章
相关标签/搜索