词向量-文本与知识库融合

时间 2019-12-12

标签向量文本知识库融合繁體版

原文原文链接

1. 关于词向量

词向量是计算机将天然语言符号化的重要手段，经过把词或短语映射成低维的实数向量，以向量间的距离来衡量词语的类似性，可做为词语特征进行各项任务，在机器学习算法和天然语言处理中有着普遍应用。html

传统的语言模型(eg. Word2vec)是基于分布假设，使用无监督的方式，利用给定的语料库中词语的上下文共现信息，经过优化后的神经网络模型，有效地将词语转换成向量的形式。web

词向量通常是基于大规模的无结构文本语料训练所得。无结构文本语料是指基于人工建立编辑，未经严格正确性验证的文本语料，例如维基百科和新浪新闻。经过训练这些语料获得的词向量，虽然在不少天然语言处理任务上都取得不错的效果，但也显示出其受限于原始语料的主题限制和不许确信息的问题。一方面，语料库中的不少低频词得不到足够的上下文信息以供训练，另外一方面因为天然语言的表述是多样的，语义上类似的词不必定具备相同的上下文，因此获得的词向量并不能反映词的内在联系。算法

2. 文本与知识库融合

前面提到基于上下文训练获得的词向量具备一些不足，一个很天然的想法就是利用其它结构化的知识，做为监督，来辅助词向量的训练。文本与知识库融合，经过信息的共享，解决或改善各自的问题。在知识表示学习领域，通常是基于已有的三元组来训练实体和关系向量，能够利用实体的描述信息或者其余文本内容来辅助学习，从而提高知识表示的性能，解决新实体的表示问题[1-3]。那么如何将知识库信息融合到词向量的训练过程呢？spring

HIT的同窗在14年提出在训练语言模型cbow的同时引入外部知识[4]，利用PPDB和WordNet中抽取的具备语义类似关系的词对，做为词语的约束，使得对应的词向量能学习到这种语义类似的信息。目标是最大化以下的似然函数，能够认为是一个简化版的cbow，已知目标词，来预测与其相关的其它词w∈R_wi。网络

微软的研究员则尝试将加入词的形态信息（前缀后缀等）、句法（POS）和语义信息（同义词等）到cbow中共同训练，以得到更高质量的词向量[5]。框架

NKU的同窗则基于 Skip-gram 模型，提出融合关系知识和分类知识的训练框架 RC-NET[6]。机器学习

其中R-NET主要利用三元组信息，C-NET主要利用同义词信息进行约束，目标函数分别以下：函数

USTC的同窗在15年提出SWE模型[7]，该模型基于Skip-gram，将词语间的关系（同义，上下位等）表示成不等式约束，目标函数是类似度s(wi,wk)与s(wi,wj)之差的hinge loss.性能

2016年IMS的同窗尝试在Skip-gram模型基础上加入词汇对比信息共同训练，提出dLCE模型[8]，使得训练获得的词向量能有效识别同义词和反义词。模型目标函数以下，前半部分是SGNS的目标函数，后半部分是同义词反义词约束。学习

3. 进一步尝试方向

上述提到的模型，尝试基于Word2vec，以不一样的方法融合不一样的结构化信息，取得必定的效果。在调研过程，咱们对上述模型进行分析，发现各模型各有千秋，但大部分只适合特定的任务，如SWE模型在wordsim任务上有提高，但在anology任务上却效果不佳，dLCE模型在同义反义识别任务上性能良好，但在wordsim任务中不一样数据集却表现差别大（WS353，MEN3000，SIMLEX999）。这彷佛是合理的，由于不一样的模型的目标就是为了解决不一样任务上的问题，好比为了解决同义反义识别问题，那经过模型使得同义词距离更近，反义词距离更远，达到了预约目标，但没法保证其它任务的性能。

那有没有办法更好的融合这些结构化知识呢？使得训练获得的词向量更具备泛化能力，能有效识别同义词反义词，又能学习到上下文信息还有不一样级别的语义信息。

咱们尝试提出一个新的模型LRWE，具体描述见下一节。

本文地址：http://www.cnblogs.com/chenbjin/p/6900339.html

参考：

[1] Zhong H, Zhang J, Wang Z, et al. Aligning knowledge and text embeddings by entity descriptions. EMNLP 2015.

[2] Xie R, Liu Z, Jia J, et al. Representation Learning of Knowledge Graphs with Entity Descriptions. AAAI 2016.

[3] Wang Z, Zhang J, Feng J, et al. Knowledge Graph and Text Jointly Embedding. EMNLP 2014.

[4] Yu M, Dredze M. Improving Lexical Embeddings with Semantic Knowledge. ACL 2014.

[5] Bian J, Gao B, Liu T. Knowledge-Powered Deep Learning for Word Embedding. ECML PKDD 2014.

[6] Xu C, Bai Y, Bian J, et al. RC-NET: A General Framework for Incorporating Knowledge into Word Representations. ACM 2014.

[7] Liu Q, Jiang H, Wei S, et al. Learning Semantic Word Embeddings based on Ordinal Knowledge Constraints. ACL 2015.

[8] Nguyen K A, Walde S S I, Vu N T. Integrating Distributional Lexical Contrast into Word Embeddings for Antonym-Synonym Distinction. ACL 2016.