基于术语关系的贝叶斯网络信息检索模型扩展研究html
LSIc++
阅读笔记算法
提出一种改进的共现频率法,利用该方法挖掘了索引术语之间的相关关系,将这种相关关系引入信念网络模型,提出了一个具备两层术语节点的扩展信念网络模型,利用实验验证了模型的性能。
将查询术语同义词做为查询证据引入信念网络模型,提出了组合同义词证据的信念网络检索模型,实验验证了模型性能。
利用同义词方法挖掘了简单贝叶斯网络检索模型(SBN 模型)中术语之间的关系,提出了利用这种关系所产生的扩展 SBN 模型,并验证了模型的性能。
利用共现分析法挖掘了术语之间的关系,将这种关系用于基于简单影响图的结构化文档检索模型(SID 模型),提出了扩展的 SID 检索模型,研究了模型的拓扑结构和信息检索方法。 数据库
同义词指在信息检索中可以互换,表达相同或相近概念的词,如“电脑”—“计算机”,“边境”-“边防”等。express
同义词之间的能够用词语类似度衡量。网络
信息检索领域文档都是由索引词(标引词)表示的,一样用户的查询通常也由一组术语表示。dom
通常地,当使用给定文档中术语之间的关系时,信息检索的性能会获得提升,ide
所以,如何有效地获取这些关系并在检索文档时使用它们,已经成为近几年信息检索领域的一个研究热点。post
研究者为此已经提出了一些方法在信息检索模型中挖掘和使用术语之间的关系,实验证实,这些工做在必定程度上提升了模型的性能。 性能
另外一方面,近几年来同义词、相关词的研究取得了必定进展。
出现了一系列同义词词典,如英文的《Wordnet》,中文的《同义词词林》、《知网》等,为同义词的识别提供了方便。
同时研究者提出了一些更为科学的,适合信息检索的术语关系量化方法,如基于《同义词词林》术语类似度计算方法,基于《知网》的术语类似度计算方法等。
在相关词识别方面提出了同现分析法,逐点互信息法等,为有效挖掘术语之间关系,并将这种关系应用于基于贝叶斯网络的信息检索模型提供了可能。
综上所述,研究如何将术语之间关系引入贝叶斯网络检索模型,实现对原有模型的扩展,以提升其检索性能,实现必定意义上的语义检索,不只具备必定的理论意义和实践意义,并且是现实可行的。
根据如前所述的研究背景和研究动因,本论文的研究主题肯定为:
针对贝叶斯网络信息检索模型存在的,没有合理利用术语之间关系的缺点,利用近年来同义词、相关词的研究成果,将术语之间关系引入贝叶斯网络检索模型,以实现对原有模型的扩展,提升模型的检索性能。
具体研究目标为:
3.1 词语相关度及其计算
略
3.2 同义词与词语类似性
3.2.1 信息检索用同义词的定义
“其不考虑感情色彩和语气,主要是指可以相互替换、表达相同或相近概念的词或词组。”
用于信息检索的同义词主要分为四类: (就是关系比较大的词)
3.2.2 同义词词典
因为同义词在信息检索中的重要性,十几年来许多研究者投入了大量精力,研制出了一些同义词词典。主要包括以下:
(1) Wordnet
Wordnet是美国普林斯顿大学认知科学实验室开发的,一部在线的、基于心理语言学原则的词典数据库系统。
它本质上是一个词汇概念网络,描述了概念间的各类语义关系。
在 Wordnet 中,概念就是同义词的集合,Wordnet 经过同义词集合表示概念,经过概念间的关系描述英语概念间复杂的网状语义关系。
目前的 Wordnet 包含了 95600 个词形,其中简单词51500 个,复合词 44100 个。
这些词形被组织成 70100 个词义或同义词集,描述了上下位、同义、反义、部分-总体等词汇语义关系。
Wordnet 应经成功地用于词义消歧、语言学自动处理、机器翻译和信息检索系统,在国际计算语言学界已有至关影响。
API:
c/c++ Interface:
http://stackoverflow.com/questions/18840805/concise-precise-tutorial-for-wordnet
http://wordnet.princeton.edu/wordnet/man/wnintro.3WN.html
(做为第二次筛选是个不错的选择)
(2) Others
略
3.2.3 词语类似度
定义 词语类似度:
①词语类似度是用来衡量两个词语在查询中或文档中意义相符程度的度量;
②词语类似度是一个数值,取值范围为[0,1]。 记做:Sim ( word1 , word2 ) 。
词语类似度是同义词识别的基本方法。通常来讲若是两个词语之间的意义越相近,则它们之间的类似度越高,不然类似度越低。
词语类似度目前有两类常见的计算方法:
根据某种世界知识(Ontology)的计算方法,利用大规模的语料库进行统计的方法。
根据世界知识( Ontology )计算词语类似度的方法,通常是使用一部同义词词典(Thesaurus)或词汇分类体系,利用词语之间的概念距离来计算词语类似度。
利用大规模的语料库进行统计的方法主要利用词语的相关性来计算词语的类似度。
3.3 基于字面类似度原理的词语类似度计算
3.3.1 基于英语单词字面的类似度方法
不太可靠。
3.3.2 国内基于字面的类似度算法研究
略
3.4 基于义类词典或词汇分类体系的词语类似度计算
在 义类词典 或者 词汇分类体系( Taxonomy) 中, 全部同类的语义项构成一个具备概念层次的树状结构, 相应结点之间的距离(称为概念距离)便可表示词汇语义之间的类似程度。两个结点之间的路径越短, 就表示他们越类似。
3.4.1 基于《同义词词林》的词语类似度计算
3.4.2 基于《Hownet》的词语类似度计算方法
3.5 基于大规模语料库的词语类似度计算
基于大规模语料库计算词语类似度的基本思路是:
例如能够事先选择一组特征词,计算这一组特征词与每个词的相关性,
对于每个词均可以获得一个相关性的特征词向量,这两个向量之间的类似度
就能够做为这两个词的类似度。 (这一组特征词,貌似有点难选)
特征词语的选择直接影响词语相关的计算,所以要选择对目标词语具备较
强约束力的词语。在汉语中具备较强上下文约束关系的词性对包括:形容词-
名词、动词-名词、名词-动词、形容词-动词等。所以若是计算两个名词的
相关度,通常考虑它们的上文的动词和形容词,以及下文的动词。
同现频率,构成同现向量
晕,发现这个方法是否是过期了?!
LDA是真理?回头是岸!
Based on [Maths] Multinomials and Dirichlet distribution
Terminology in text mining
• Corpus - is a large set of texts
• Stop words - usually refer to the most common words in a language which are usually filtered out
• Function words - words that have little meaning, but instead serve to express grammatical relationships with other words within a sentence, or specify the attitude or mood of the speaker
• Unstructured text - either does not have a pre-defined format or is not organized in a pre-defined manner
• Tokenizing - process of breaking a stream of text up into words, phrases, symbols, or other meaningful elements called tokens (terms)
• Term-document matrix (or document-term matrix): is a mathematical matrix that describes the frequency of terms that occur in a collection of documents
• Supervised learning - machine learning task of inferring a function from labelled training data
• Unsupervised learning - similar to above but find hidden structure in unlabelled data
• Most of topic models are based on “bag-of-words”
• The order of words in a document is neglected 无顺序性
• In probability theory, this is an assumption of “exchangeability” for the words in “bag-of-words” representation 可交换性
• LDA also assumes that documents are exchangeable within a corpus
• A classic representation theorem due to de Finetti establishes that any collection of exchangeable random variables has a representation as a mixture distribution
• To use exchangeable (bag-of-words) representations for documents and words, we need to consider mixture models → LDA
Figure, Term-document matrix
基础知识:tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
From: 【Topic Model】主题模型之潜在语义分析(Latent Semantic Analysis) (良心博文,写得很好)
LSA 用向量空间模型将文档映射成矩阵, 使用SVD 分解矩阵:
其中矩阵 和
是正交矩阵,矩阵
是包含文档矩阵的奇异值组成的对角阵。
因为矩阵中的奇异值的大小表明了矩阵在该维度的变化大小,而且奇异值在矩阵
中是按照从大到小的顺序排列的。当
中的前k个奇异值较大的时候,取前k个奇异值能够看做是对原来矩阵的近似。
举个例子,数据集中分别有关两个话题的9篇微博文档,话题A是关于话题陈奕迅演唱会的,话题B是关于话题谷歌眼睛问世的。通过分词后将能够获得每一个词对应每篇微博文档出现频率的词频表。以下表所示。
话题A:陈奕迅演唱会
A1:陈奕迅的演唱会太好听了,大爱陈奕迅的《十年》
A2:最喜欢的Eason《十年》和《由于爱情》
A3:看陈奕迅的《十年》,现代科技真厉害,现场真棒
A4:北京演唱会,Eason 和王菲对唱《由于爱情》
A5:演唱会陈奕迅为了请到王菲唱《由于爱情》,特意不说话
话题B:谷歌眼镜问世
B1:谷歌眼镜即将上市,如今能够申请试用。
B2:科技新创意–Google Glass
B3:Glass 创意无限,各位Geek 能够想办法试用
B4:谷歌眼镜能够申请试用了,属于可穿戴式科技产品
词频表能够看做是这9条微博的彻底统计,经过词频计算表 --> TF-IDF权值表,
对其进行奇异值分解,以下:
设TF-IDF权值表为
,则经过奇异值分解有:
对矩阵和
分别取奇异值分解的前两维,即设k=2,能够获得
和
和
。
其中 即可表示为:该n篇文章对应在前两维度上的一个点的分布,能够分别取
和
为两个维度绘制每篇文章在这两个维度上的位置
(以下图所示,蓝色的方形表示话题B的四篇微博,红色的菱形表示话题A的五篇微博)。
对于一篇新的文章,能够经过计算
获得新文章在该两个维度上的分布。
下图中黑色的圆圈即是新的微博:“Eason演唱会王菲”获得的结果,能够看到在这两个维度上很好的将两个话题区分开了。
分解实例:https://www.youtube.com/watch?v=KYLjyhcHxJ8