LDA主题模型发展历程(1)

**spa

主题模型发展历程

**
首先从Unigram model谈起,基于Unigram model加入贝叶斯先验获得贝叶斯Unigram model,再基于SVD分解获得LSA模型,在LSA模型的基础上加入几率化的解释,就获得了PLSA,在PLSA的基础上加入先验化的分布就获得了LDA。.net

Unigram Model

clipboard.png
clipboard.png
clipboard.png

贝叶斯Unigram Model

对于以上模型,贝叶斯统计学派持有不一样的意见,他们认为只假设上帝拥有一个固定的骰子不合理。在贝叶斯学派看来,一切参数都是随机变量,因此认为以上模型中的骰子不是惟一固定的,它也是一个随机变量。流程以下:blog

clipboard.png
clipboard.png

LSA

LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”。咱们知道,在文档的空间向量模型中,文档被表示成由特征词出现几率组成的多维向量,能够对不一样词项赋予不一样的权重,在文本检索、分类、聚类问题中都获得了普遍应用,然而,向量空间模型没有能力处理一词多义和一义多词问题,例如同义词也分别被表示成独立的一维,计算向量的余弦类似度时会低估用户指望的类似度;而某个词项有多个词义时,始终对应同一维度,所以计算的结果会高估用户指望的类似度。
LSA方法的引入就能够减轻相似的问题。基于SVD分解,咱们能够构造一个原始向量矩阵的一个低秩逼近矩阵,具体的作法是将词项文档矩阵作SVD分解ip

clipboard.png

其中是以词项(terms)为行, 文档(documents)为列作一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值。而后把∑的r个对角元素的前k个保留(最大的k个保留), 后面最小的r-k个奇异值置0, 获得∑k;最后计算一个近似的分解矩阵文档

clipboard.png

则Ck在最小二乘意义下是的最佳逼近。因为∑k最多包含k个非零元素,因此Ck的秩不超过k。经过在SVD分解近似,咱们将原始的向量转化成一个低维隐含语义空间中,起到了特征降维的做用。每一个奇异值对应的是每一个“语义”维度的权重,将不过重要的权重置为0,只保留最重要的维度信息,去掉一些信息“nosie”,于是能够获得文档的一种更优表示形式。get

参考:
《LDA数学八卦》
https://blog.csdn.net/pipisor...数学

相关文章
相关标签/搜索