word2vec原理总结

时间 2019-11-06

标签 word2vec word vec 原理总结栏目 Microsoft Office 繁體版

原文原文链接

一篇很好的入门博客，http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/算法

他的翻译，https://www.jianshu.com/p/1405932293ea网络

能够做为参考的，https://blog.csdn.net/mr_tyting/article/details/80091842函数

有论文和代码，https://blog.csdn.net/mr_tyting/article/details/80091842post

word2vector，顾名思义，就是将语料库中的词转化成向量，以便后续在词向量的基础上进行各类计算。学习

最多见的表示方法是counting 编码。假设咱们的语料库中是以下三句话：优化

I like deep learning
I like NLP
I enjoy flying
利用counting编码，咱们能够绘出以下矩阵：ui

假设语料库中的单词数量是N，则上图矩阵的大小就是N*N，其中的每一行就表明一个词的向量表示。如第一行
0 2 1 0 0 0 0
是单词I的向量表示。其中的2表明I这个单词与like这个词在语料库中共同出现了2次。google

可是这种办法至少有三个缺陷：编码

1是词语数量较大时，向量维度高且稀疏，向量矩阵巨大而难以存储
2是向量并不包含单词的语义内容，只是基于数量统计。
3是当有新的词加入语料库后，整个向量矩阵须要更新

尽管咱们能够经过SVD来下降向量的维度，可是SVD自己倒是一个须要巨大计算量的操做。
很明显，这种办法在实际中并很差用。咱们今天学习的skip gram算法能够成功克服以上三个缺陷。它的基本思想是首先将全部词语进行one-hot编码，输入只有一个隐藏层的神经网络，定义好loss后进行训练，后面咱们会讲解如何定义loss，这里暂时按下不表。训练完成后，咱们就能够用隐藏层的权重来做为词的向量表示！！
这个思想乍听起来很神奇是否是？其实咱们早就熟悉它了。auto-encoder时，咱们也是用有一个隐藏层的神经网络进行训练，训练完成后，丢去后面的output层，只用隐藏层的输出做为最终须要的向量对象，藉此成功完成向量的压缩。.net

Word2Vec工做流程

Word2Vec有两种训练方法，一种叫CBOW，核心思想是从一个句子里面把一个词抠掉，用这个词的上文和下文去预测被抠掉的这个词；第二种叫作Skip-gram，和CBOW正好反过来，输入某个单词，要求网络预测它的上下文单词。下面以Skip-gram为例介绍，

一、word2Vec只是一个三层的神经网络。
二、喂给模型一个word，而后用来预测它周边的词。
三、而后去掉最后一层，只保存input_layer 和 hidden_layer。
四、从词表中选取一个词，喂给模型，在hidden_layer 将会给出该词的embedding repesentation。

用神经网络训练，大致有以下几个步骤：

准备好data，即X和Y
定义好网络结构
定义好loss
选择合适的优化器
进行迭代训练
存储训练好的网络

1、构造训练数据

假设咱们的语料库中只有一句话：The quick brown fox jumps over the lazy dog.
这句话中共有8个词（这里The与the算同一个词）。skip gram算法是怎么为这8个词生成词向量的呢？

其实很是简单，（x,y）就是一个个的单词对。好比（the，quick）就是一个单词对，the就是样本数据，quick就是该条样本的标签。
那么，如何从上面那句话中生成单词对数据呢？答案就是n-gram方法。多说不如看图：

咱们以词为单位扫描这句话，每扫描到一个词，都把该词左右各两个词共4个词拿出来，分别与被扫描的单词组成单词对，做为咱们的训练数据。

这里有两个细节，一个就是取被扫描单词左右各2个词，这里的2被称为 窗口尺寸，是能够调整的，用多大的窗口生成的单词对来训练最好，须要具体问题具体分析。通常来讲，取5是很好的经验值。也就是左右各取5个单词，共10个单词。第二个细节就是句子头尾的单词被扫描时，其能取的单词对数要少几个，这个不影响大局，不用理会。

这里咱们须要停下来细细琢磨下，咱们这样取单词对做为训练数据的目的何在？以（fox，jumps）为例，jumps能够理解为fox的上下文，咱们将fox输入神经网络时，但愿网络可以告诉咱们，在语料库的8个单词中，jumps是更可能出如今fox周围的。
你可能会想，（fox，brown）也是一个单词对，它输入神经网络后，岂不是但愿神经网络告诉咱们，在8个单词中，brown是更可能出如今fox周围？若是是这样，那么训练完成后的神经网络，输入fox，它的输出会是brown和jumps的哪个呢？
答案是取决于（fox，brown）和（fox，jumps）两个单词对谁在训练集中出现的次数比较多，神经网络就会针对哪一个单词对按照梯度降低进行更多的调整，从而就会倾向于预测谁将出如今fox周围。

2、数字化表示单词对

上面咱们得到了许多单词对做为训练数据，可是神经网络不能直接接收和输出字符串形式的单词对，因此须要将单词对转化为数字的形式。方法也很简单，就是用one-hot编码，以下图所示：

（the，quick）单词对就表示成【（1,0,0,0,0,0,0,0），（0,1,0,0,0,0,0,0）】。这样就能够输入神经网络进行训练了，当咱们将the输入神经网络时，但愿网络也能输出一个8维的向量，而且第二维尽量接近1（即接近quick），其余维尽量接近0。也就是让神经网络告诉咱们，quick更可能出如今the的周围。固然，咱们还但愿这8维向量全部位置的值相加为1，由于相加为1就能够认为这个8维向量描述的是一个几率分布，正好咱们的y值也是一个几率分布（一个位置为1，其余位置为0），咱们就能够用交叉熵来衡量神经网络的输出与咱们的label y的差别大小，也就能够定义出loss了。

三、网络结构
网络结构以下，它的隐藏层并无激活函数，可是输出层却用了softmax，这是为了保证输出的向量是一个几率分布。

四、隐藏层

输出层的神经元应该是8个，这样才能输出一个8维的向量。那么隐藏层的神经元应该是多少？
这取决于咱们但愿获得的词向量是多少维，有多少个隐藏神经元词向量就是多少维。每个隐藏的神经元接收的输入都是一个8维向量，假设咱们的隐藏神经元有3个（仅仅是为了举例说明使用，实际中，google推荐的是300个，但具体多少合适，须要你本身进行试验，怎么效果好怎么来），如此以来，隐藏层的权重就能够用一个8行3列的矩阵来表示,这个8行3列的矩阵的第一行，就是三个隐藏神经元对应于输入向量第一维的权重，以下图所示：

网络训练完成后，这个8行3列的矩阵的每一行就是一个单词的词向量！以下图所示：

网络的输入是one-hot编码的单词，它与隐藏层权重矩阵相乘其实是取权重矩阵特定的行，以下图所示：

这意味着，隐藏层实际上至关因而一个查找表，它的输出就是输入的单词的词向量

五、输出层

当咱们从隐藏层得到一个单词的词向量后，就要通过输出层了。
输出层的神经元数量和语料库中的单词数量同样。每个神经元能够认为对应一个单词的 输出权重，词向量乘以该 输出权重就获得一个数，该数字表明了输出神经元对应的单词出如今输入单词周围的可能性大小，经过对全部的输出层神经元的输出进行softmax操做，咱们就把输出层的输出规整为一个几率分布了。以下图所示：

这里有一点须要注意，咱们说输出的是该单词出如今输入单词周围的几率大小，这个“周围”包含单词的前面，也包含单词的后面。

前面，咱们表示，skip gram算法生成的词向量能够包含语义信息，也就是说，语义相近的词其词向量也相近。这里，咱们给一个直觉的解释。
首先，语义相近的词每每有着相似的上下文。这是什么意思呢？举例来讲，“聪明”和“伶俐”两个词语义是相近的，那么它们的使用场景也是类似的，它们周围的词很大程度上是相近或相同的。
语义相近的词有着类似的上下文，让咱们的神经网络在训练过程当中对相近的词产生相近的输出向量。网络如何作到这一点呢？答案就是训练完成后，网络可以对语义相近的词产生相近的词向量。由于此时的输出层已经训练完成，不会改变了。

六、负采样

咱们知道对于训练语言模型来讲，softmax层很是难算，毕竟你要预测的是当前位置是哪一个词，那么这个类别数就等同于词典规模，所以动辄几万几十万的类别数，算softmax函数固然很费力啦。可是，若是咱们的目标不在于训练一个精准的语言模型，而只是为了训练获得语言模型的副产物-词向量，那么其实只须要用这里隐含的一个计算代价更小的“子任务”就好啦。

想想，给你10000张写有数字的卡片，让你找出其中的较大值，是否是特别费力？可是若是把里面的较大值事先抽出来，跟五张随机抽取的卡片混到一块儿，让你选出其中的较大值，是否是就容易多啦？

负采样就是这个思想，即不直接让模型从整个词表找最可能的词了，而是直接给定这个词（即正例）和几个随机采样的噪声词（即采样出来的负例），只要模型能从这里面找出正确的词就认为完成目标啦。因此这个想法对应的目标函数即：

在tensorflow里面实现的word2Vec，vocab_szie并非全部的word的数量，并且先统计了全部word的出现频次，而后选取出现频次最高的前50000的词做为词袋。具体操做请看代码 tensorflow/examples/tutorials/word2vec/word2vec_basic.py，其他的词用unkunk代替。采用一种所谓的”负采样”的操做，这种操做每次可让一个样本只更新权重矩阵中一小部分，减少训练过程当中的计算压力。举例来讲：一个input output pair如：(“fox”,“quick”)，由上面的分析可知，其true label为一个one−hot向量，而且该向量只是在quick的位置为1，其他的位置均为0，而且该向量的长度为vocab size，由此每一个样本都缓慢能更新权重矩阵，而”负采样”操做只是随机选择其他的部分word，使得其在true label的位置为0，那么咱们只更新对应位置的权重。例如咱们若是选择负采样数量为５，则选取５个其他的word，使其对应的output为0，这个时候output只是６个神经元，原本咱们一次须要更新300∗10,000参数，进行负采样操做之后只须要更新300∗6＝1800个参数。