[Bayes] Concept Search and LSI

时间 2019-11-18

标签 bayes concept search lsi 繁體版

原文原文链接

基于术语关系的贝叶斯网络信息检索模型扩展研究html

LSIc++

阅读笔记算法

背景知识

提出一种改进的共现频率法，利用该方法挖掘了索引术语之间的相关关系，将这种相关关系引入信念网络模型，提出了一个具备两层术语节点的扩展信念网络模型，利用实验验证了模型的性能。
将查询术语同义词做为查询证据引入信念网络模型，提出了组合同义词证据的信念网络检索模型，实验验证了模型性能。
利用同义词方法挖掘了简单贝叶斯网络检索模型（SBN 模型）中术语之间的关系，提出了利用这种关系所产生的扩展 SBN 模型，并验证了模型的性能。
利用共现分析法挖掘了术语之间的关系，将这种关系用于基于简单影响图的结构化文档检索模型（SID 模型），提出了扩展的 SID 检索模型，研究了模型的拓扑结构和信息检索方法。数据库

同义词指在信息检索中可以互换，表达相同或相近概念的词，如“电脑”—“计算机”，“边境”－“边防”等。express

同义词之间的能够用词语类似度衡量。网络

信息检索领域文档都是由索引词（标引词）表示的，一样用户的查询通常也由一组术语表示。dom

通常地，当使用给定文档中术语之间的关系时，信息检索的性能会获得提升，ide

所以，如何有效地获取这些关系并在检索文档时使用它们，已经成为近几年信息检索领域的一个研究热点。post

研究者为此已经提出了一些方法在信息检索模型中挖掘和使用术语之间的关系，实验证实，这些工做在必定程度上提升了模型的性能。性能

另外一方面，近几年来同义词、相关词的研究取得了必定进展。

出现了一系列同义词词典，如英文的《Wordnet》，中文的《同义词词林》、《知网》等，为同义词的识别提供了方便。

同时研究者提出了一些更为科学的，适合信息检索的术语关系量化方法，如基于《同义词词林》术语类似度计算方法，基于《知网》的术语类似度计算方法等。

在相关词识别方面提出了同现分析法，逐点互信息法等，为有效挖掘术语之间关系，并将这种关系应用于基于贝叶斯网络的信息检索模型提供了可能。
综上所述，研究如何将术语之间关系引入贝叶斯网络检索模型，实现对原有模型的扩展，以提升其检索性能，实现必定意义上的语义检索，不只具备必定的理论意义和实践意义，并且是现实可行的。

研究目标

根据如前所述的研究背景和研究动因，本论文的研究主题肯定为：
针对贝叶斯网络信息检索模型存在的，没有合理利用术语之间关系的缺点，利用近年来同义词、相关词的研究成果，将术语之间关系引入贝叶斯网络检索模型，以实现对原有模型的扩展，提升模型的检索性能。

具体研究目标为：

- （1）研究基于贝叶斯网络的信息检索模型中术语关系的表示及量化方法；
- （2）利用术语间关系对基于贝叶斯网络的信息检索模型进行扩展，以提升模型性能，实现必定意义上的语义检索。
- （3）研究利用术语关系扩展相关结构化文档检索模型的方法，提出相关的扩展模型。
- （4）初步构造测试集，实验验证扩展模型的性能。

研究基础

《基于上下文词语同现向量的词语类似度计算》

晕，发现这个方法是否是过期了？！

LDA是真理？回头是岸！

From LSI to LDA

Based on [Maths] Multinomials and Dirichlet distribution

Terminology in text mining
• Corpus - is a large set of texts
• Stop words - usually refer to the most common words in a language which are usually filtered out
• Function words - words that have little meaning, but instead serve to express grammatical relationships with other words within a sentence, or specify the attitude or mood of the speaker
• Unstructured text - either does not have a pre-defined format or is not organized in a pre-defined manner
• Tokenizing - process of breaking a stream of text up into words, phrases, symbols, or other meaningful elements called tokens (terms)
• Term-document matrix (or document-term matrix): is a mathematical matrix that describes the frequency of terms that occur in a collection of documents
• Supervised learning - machine learning task of inferring a function from labelled training data
• Unsupervised learning - similar to above but find hidden structure in unlabelled data

History

• Most of topic models are based on “bag-of-words”
• The order of words in a document is neglected 无顺序性
• In probability theory, this is an assumption of “exchangeability” for the words in “bag-of-words” representation 可交换性
• LDA also assumes that documents are exchangeable within a corpus
• A classic representation theorem due to de Finetti establishes that any collection of exchangeable random variables has a representation as a mixture distribution
• To use exchangeable (bag-of-words) representations for documents and words, we need to consider mixture models → LDA

Figure, Term-document matrix

LSI

基础知识：tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

From: 【Topic Model】主题模型之潜在语义分析（Latent Semantic Analysis） (良心博文，写得很好)

LSA 用向量空间模型将文档映射成矩阵，使用SVD 分解矩阵：

其中矩阵

因为矩阵

举个例子，数据集中分别有关两个话题的9篇微博文档，话题A是关于话题陈奕迅演唱会的，话题B是关于话题谷歌眼睛问世的。通过分词后将能够获得每一个词对应每篇微博文档出现频率的词频表。以下表所示。

话题A：陈奕迅演唱会

A1：陈奕迅的演唱会太好听了，大爱陈奕迅的《十年》
A2：最喜欢的Eason《十年》和《由于爱情》
A3：看陈奕迅的《十年》，现代科技真厉害，现场真棒
A4：北京演唱会，Eason 和王菲对唱《由于爱情》
A5：演唱会陈奕迅为了请到王菲唱《由于爱情》，特意不说话

话题B：谷歌眼镜问世

B1：谷歌眼镜即将上市，如今能够申请试用。
B2：科技新创意–Google Glass
B3：Glass 创意无限，各位Geek 能够想办法试用
B4：谷歌眼镜能够申请试用了，属于可穿戴式科技产品

词频表能够看做是这9条微博的彻底统计，经过词频计算表 --> TF-IDF权值表，

对其进行奇异值分解，以下：

设TF-IDF权值表为

对矩阵

好例子补充：

分解实例：https://www.youtube.com/watch?v=KYLjyhcHxJ8