词向量是计算机将天然语言符号化的重要手段,经过把词或短语映射成低维的实数向量,以向量间的距离来衡量词语的类似性,可做为词语特征进行各项任务,在机器学习算法和天然语言处理中有着普遍应用。html
传统的语言模型(eg. Word2vec)是基于分布假设,使用无监督的方式,利用给定的语料库中词语的上下文共现信息,经过优化后的神经网络模型,有效地将词语转换成向量的形式。web
词向量通常是基于大规模的无结构文本语料训练所得。无结构文本语料是指基于人工建立编辑,未经严格正确性验证的文本语料,例如维基百科和新浪新闻。经过训练这些语料获得的词向量,虽然在不少天然语言处理任务上都取得不错的效果,但也显示出其受限于原始语料的主题限制和不许确信息的问题。一方面,语料库中的不少低频词得不到足够的上下文信息以供训练, 另外一方面因为天然语言的表述是多样的,语义上类似的词不必定具备相同的上下文,因此获得的词向量并不能反映词的内在联系。算法
前面提到基于上下文训练获得的词向量具备一些不足,一个很天然的想法就是利用其它结构化的知识,做为监督,来辅助词向量的训练。文本与知识库融合,经过信息的共享,解决或改善各自的问题。在知识表示学习领域,通常是基于已有的三元组来训练实体和关系向量,能够利用实体的描述信息或者其余文本内容来辅助学习,从而提高知识表示的性能,解决新实体的表示问题[1-3]。那么如何将知识库信息融合到词向量的训练过程呢?spring
HIT的同窗在14年提出在训练语言模型cbow的同时引入外部知识[4],利用PPDB和WordNet中抽取的具备语义类似关系的词对,做为词语的约束,使得对应的词向量能学习到这种语义类似的信息。目标是最大化以下的似然函数,能够认为是一个简化版的cbow,已知目标词,来预测与其相关的其它词w∈R_wi。网络
微软的研究员则尝试将加入词的形态信息(前缀后缀等)、句法(POS)和语义信息(同义词等)到cbow中共同训练,以得到更高质量的词向量[5]。框架
NKU的同窗则基于 Skip-gram 模型,提出融合关系知识和分类知识的训练框架 RC-NET[6]。机器学习
其中R-NET主要利用三元组信息,C-NET主要利用同义词信息进行约束,目标函数分别以下:函数
USTC的同窗在15年提出SWE模型[7],该模型基于Skip-gram,将词语间的关系(同义,上下位等)表示成不等式约束,目标函数是类似度s(wi,wk)与s(wi,wj)之差的hinge loss.性能
2016年IMS的同窗尝试在Skip-gram模型基础上加入词汇对比信息共同训练,提出dLCE模型[8],使得训练获得的词向量能有效识别同义词和反义词。模型目标函数以下,前半部分是SGNS的目标函数,后半部分是同义词反义词约束。学习
上述提到的模型,尝试基于Word2vec,以不一样的方法融合不一样的结构化信息,取得必定的效果。在调研过程,咱们对上述模型进行分析,发现各模型各有千秋,但大部分只适合特定的任务,如SWE模型在wordsim任务上有提高,但在anology任务上却效果不佳,dLCE模型在同义反义识别任务上性能良好,但在wordsim任务中不一样数据集却表现差别大(WS353,MEN3000,SIMLEX999)。这彷佛是合理的,由于不一样的模型的目标就是为了解决不一样任务上的问题,好比为了解决同义反义识别问题,那经过模型使得同义词距离更近,反义词距离更远,达到了预约目标,但没法保证其它任务的性能。
那有没有办法更好的融合这些结构化知识呢?使得训练获得的词向量更具备泛化能力,能有效识别同义词反义词,又能学习到上下文信息还有不一样级别的语义信息。
咱们尝试提出一个新的模型LRWE,具体描述见下一节。
本文地址:http://www.cnblogs.com/chenbjin/p/6900339.html
参考:
[1] Zhong H, Zhang J, Wang Z, et al. Aligning knowledge and text embeddings by entity descriptions. EMNLP 2015.
[2] Xie R, Liu Z, Jia J, et al. Representation Learning of Knowledge Graphs with Entity Descriptions. AAAI 2016.
[3] Wang Z, Zhang J, Feng J, et al. Knowledge Graph and Text Jointly Embedding. EMNLP 2014.
[4] Yu M, Dredze M. Improving Lexical Embeddings with Semantic Knowledge. ACL 2014.
[5] Bian J, Gao B, Liu T. Knowledge-Powered Deep Learning for Word Embedding. ECML PKDD 2014.
[6] Xu C, Bai Y, Bian J, et al. RC-NET: A General Framework for Incorporating Knowledge into Word Representations. ACM 2014.
[7] Liu Q, Jiang H, Wei S, et al. Learning Semantic Word Embeddings based on Ordinal Knowledge Constraints. ACL 2015.
[8] Nguyen K A, Walde S S I, Vu N T. Integrating Distributional Lexical Contrast into Word Embeddings for Antonym-Synonym Distinction. ACL 2016.