本文主要工做是将文本方法 (word2vec) 和知识库方法 (transE) 相融合做知识表示,即将外部知识库信息(三元组)加入word2vec语言模型,做为正则项指导词向量的学习,将获得的词向量用于分类任务,效果有必定提高。git
一. word2vec 模型github
word2vec 是 Google 在 2013 年开源推出的一款将词表征为实数值向量的高效工具,使用的是 Distributed representation (Hinton, 1986) 的词向量表示方式,基本思想是经过训练将每一个词映射成 K 维实数向量后,可经过词之间的距离(好比 cosine 类似度、欧氏距离等)来判断它们之间的语义类似度。word2vec 输出的词向量能够被用来作不少 NLP 相关的工做,好比聚类、找同义词、词性分析等。同时 word2vec 还发现有趣的单词类比推理现象,即 V(king) - V(man) + V(woman) ≈ V(queue) 。算法
word2vec 本质上是一种神经几率语言模型 (Bengio,2003),经过神经网络来训练语言模型,而词向量只是副产品。其中有两个重要模型 —— CBOW 模型 (Continuous Bag-of-Word Model) 和 Skip-gram 模型 (Continuous Skip-gram Model),同时做者给出了两套框架,分别基于 Hierarchical Softmax(hs) 和 Negative Sampling(NEG),本文使用了基于Negative Sampling 的 CBOW 模型,下面进行简单介绍:数据库
基于 Negative Sampling 的 CBOW 模型网络
CBOW 模型包含三层:输入层,投影层和输出层,在已知当前词 wt 的上下文 wt-2, wt-1, wt+1, wt+2 的前提下预测当前词 wt(见下图)框架
模型优化的目标函数是以下的对数似然函数,关键就在于 的构建。分布式
传统神经几率语言模型使用的是 softmax,但 softmax 计算复杂度高,尤为语料词汇量大的时候。函数
在 word2vec 中,使用 Hierarchical Softmax 和 Negative Sampling 来近似计算,目的是提升训练速度并改善词向量的质量。与 Hierarchical Softmax 相比,NEG再也不使用复杂的 Huffman树, 而是采用随机负采样的方法,增大正样本的几率同时下降负样本的几率。工具
在 CBOW 模型中,已知词 w 的上下文 Context(w),须要预测 w,所以对于给定的 Context(w),词 w 就是一个正样本,其它词就是负样本,对于一个给定的样本(Context(w), w),咱们但愿最大化学习
其中,NEG(w) 表示负样本集,正样本标签为 1,负样本标签为0,其几率计算以下
或者写成总体表达式
故优化目标就是最大化 g(w),增大正样本的几率同时下降负样本的几率。对于一个给定的语料库C,函数G就是总体优化的目标,为了计算方便,对G取对数,最终目标函数以下:
利用随机梯度上升对上式进行求解便可,这里直接给出梯度计算结果,
,
故参数θu更新公式以下:
对于 w’ 属于 Context(w) ,即其上下文词向量更新公式以下:
下面以样本 (Context(w), w) 为例,给出基于Negative Sampling 的 CBOW 模型训练过程的伪代码,与 word2vec 源码 相对应关系以下: 对应
,
对应
,
对应
,
对应
。以后咱们结合 transE 模型时,也是根据 word2vec 源码进行改进。
关于word2vec的数学原理以及公式推导过程,强烈推荐@peghoty的博客:word2vec中的数学原理详解
二. transE 模型
TransE 是基于实体和关系的分布式向量表示,由 Bordes 等人于2013年提出,受word2vec启发,利用了词向量的平移不变现象。将每一个三元组实例 (head,relation,tail) 中的关系 relation 看作从实体 head 到实体 tail 的翻译,经过不断调整h、r和t (head、relation 和 tail 的向量),使 (h + r) 尽量与 t 相等,即 h + r ≈ t。该优化目标以下图所示:
TransE 定义了一个距离函数 d(h + r, t),它用来衡量 h + r 和 t 之间的距离,在实际应用中可使用 L1 或 L2 范数。在模型的训练过程当中,transE采用最大间隔方法,其目标函数以下:
其中,S是知识库中的三元组,S’是负采样的三元组,经过替换 h 或 t 所得。γ 是取值大于0的间隔距离参数,[x]+表示正值函数,即 x > 0时,[x]+ = x;当 x ≤ 0 时,[x]+ = 0 。算法模型比较简单,梯度更新只需计算距离 d(h+r, t) 和 d(h’+r, t’).
模型训练完成后,可获得实体和关系的向量表示,进一步可作关系抽取和知识推理的任务。下面是算法伪代码:
三. word2vec + transE 模型
在咱们的模型中,主要利用的是百科词条抽取的 infobox 信息,构成三元组信息 (h, r, t),例如 (百度,董事长,李彦宏),假设信息是事实,一个基本想法就是在训练 word2vec 过程当中,加入这些三元组信息,使得关联的 h 和 t 某种程度上更接近,也能够说是一种正则化约束,例如三元组信息是类别信息,即词语属于哪一个领域的信息。
为了与 word2vec 模型融合,利用 transE 思想,从新定义 (h+r, t)的目标函数为几率函数(其实就是 softmax):
其中 是包含 wi 的全部关系,|V| 是字典的大小。
是由 wi 和 r 的向量线性相加所得,即
,
表示词 t 对应的参数。
这样一来,咱们就能够构建基于 word2vec 和 transE 的模型目标函数,以下:
其中,式子左边是基于 CBOW 的 word2vec 模型,右边是关系词向量模型,γ 是平衡两个模型贡献比率的参数,|C|是整个语料库的大小。训练的时候一样采用Negative Sampling 的方法近似计算 softmax。 咱们来看下关系词向量模型(右半部分)的求解过程:
(1)
在 Negative Sampling 中,三元组一样被分为正样本和负样本,根据Local Closed World假设,不在知识库中的三元组视为负样本,即 (wi, r, t) 成立的时候,对应的 t 为正样本,而其余词语都为负样本,举个例子(百度,董事长,李彦宏)是正样本,(百度,董事长,马云)是负样本。对于给定的一个词 wi 和对应的一个关系 r,训练的目标似然函数以下:
(2)
是否是有点眼熟?细心朋友能够发现,这和 word2vec 模型的目标似然函数是类似的,将(2)式代入(1)上述关系词向量模型最终的目标似然函数就是
根据 word2vec 的梯度推导,咱们能够获得参数的梯度更新以下:
关系词向量模型的实体 wi 和关系 r 梯度更新以下:
,
模型伪代码以下,与 word2vec_transE 源码(github) 相对应关系以下: 对应
,
对应
,
对应
,
对应
,
对应
,
对应
实验过程及结果
实验过程,训练语料源于百度百科摘要数据,高频关系三元组 (h, r, t) 168403条,关系 r 有 1650 种,训练时间 2h (比 word2vec 原始代码训练要耗时是正常的),利用训练后的词向量作分类任务,效果比原始 word2vec 训练词向量高 2%,可见加入外部数据库信息必定程度上能提高词向量的表达能力。
一些问题
(1)语料脏!百度百科数据太脏了,词条排版属性格式不一,信息前期预处理麻烦。
(2)模型其实是增长约束,依然无法解决一词多义问题
(3)这里加入的信息只是 infobox 抽取的三元组,信息利用率不高,可进一步利用百科连接,分类等信息。
项目地址:github
参考
[1]. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. (2013). Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR.
[2]. Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Proceedings of NIPS.
[3]. peghoty的博客:word2vec中的数学原理详解
[4]. 张柏韩:基于知识库的词向量研究与应用