一篇很好的入门博客,http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/算法
他的翻译,https://www.jianshu.com/p/1405932293ea网络
能够做为参考的,https://blog.csdn.net/mr_tyting/article/details/80091842函数
有论文和代码,https://blog.csdn.net/mr_tyting/article/details/80091842post
word2vector,顾名思义,就是将语料库中的词转化成向量,以便后续在词向量的基础上进行各类计算。学习
最多见的表示方法是counting 编码。假设咱们的语料库中是以下三句话:优化
I like deep learning
I like NLP
I enjoy flying
利用counting编码,咱们能够绘出以下矩阵:ui
假设语料库中的单词数量是N,则上图矩阵的大小就是N*N,其中的每一行就表明一个词的向量表示。如第一行
0 2 1 0 0 0 0
是单词I的向量表示。其中的2表明I这个单词与like这个词在语料库中共同出现了2次。google
可是这种办法至少有三个缺陷:编码
尽管咱们能够经过SVD来下降向量的维度,可是SVD自己倒是一个须要巨大计算量的操做。
很明显,这种办法在实际中并很差用。咱们今天学习的skip gram算法能够成功克服以上三个缺陷。它的基本思想是首先将全部词语进行one-hot编码,输入只有一个隐藏层的神经网络,定义好loss后进行训练,后面咱们会讲解如何定义loss,这里暂时按下不表。训练完成后,咱们就能够用隐藏层的权重来做为词的向量表示!!
这个思想乍听起来很神奇是否是?其实咱们早就熟悉它了。auto-encoder时,咱们也是用有一个隐藏层的神经网络进行训练,训练完成后,丢去后面的output层,只用隐藏层的输出做为最终须要的向量对象,藉此成功完成向量的压缩。.net
Word2Vec有两种训练方法,一种叫CBOW,核心思想是从一个句子里面把一个词抠掉,用这个词的上文和下文去预测被抠掉的这个词;第二种叫作Skip-gram,和CBOW正好反过来,输入某个单词,要求网络预测它的上下文单词。下面以Skip-gram为例介绍,
一、word2Vec只是一个三层 的神经网络。
二、喂给模型一个word,而后用来预测它周边的词。
三、而后去掉最后一层,只保存input_layer 和 hidden_layer。
四、从词表中选取一个词,喂给模型,在hidden_layer 将会给出该词的embedding repesentation。
用神经网络训练,大致有以下几个步骤:
准备好data,即X和Y
定义好网络结构
定义好loss
选择合适的优化器
进行迭代训练
存储训练好的网络
1、构造训练数据
假设咱们的语料库中只有一句话:The quick brown fox jumps over the lazy dog.
这句话中共有8个词(这里The与the算同一个词)。skip gram算法是怎么为这8个词生成词向量的呢?
其实很是简单,(x,y)就是一个个的单词对。好比(the,quick)就是一个单词对,the就是样本数据,quick就是该条样本的标签。
那么,如何从上面那句话中生成单词对数据呢?答案就是n-gram方法。多说不如看图:
(the,quick)单词对就表示成【(1,0,0,0,0,0,0,0),(0,1,0,0,0,0,0,0)】。这样就能够输入神经网络进行训练了,当咱们将the输入神经网络时,但愿网络也能输出一个8维的向量,而且第二维尽量接近1(即接近quick),其余维尽量接近0。也就是让神经网络告诉咱们,quick更可能出如今the的周围。固然,咱们还但愿这8维向量全部位置的值相加为1,由于相加为1就能够认为这个8维向量描述的是一个几率分布,正好咱们的y值也是一个几率分布(一个位置为1,其余位置为0),咱们就能够用交叉熵来衡量神经网络的输出与咱们的label y的差别大小,也就能够定义出loss了。
四、隐藏层
网络训练完成后,这个8行3列的矩阵的每一行就是一个单词的词向量!以下图所示:
网络的输入是one-hot编码的单词,它与隐藏层权重矩阵相乘其实是取权重矩阵特定的行,以下图所示:
这意味着,隐藏层实际上至关因而一个查找表,它的输出就是输入的单词的词向量
这里有一点须要注意,咱们说输出的是该单词出如今输入单词周围的几率大小,这个“周围”包含单词的前面,也包含单词的后面。
在tensorflow里面实现的word2Vec,vocab_szie并非全部的word的数量,并且先统计了全部word的出现频次,而后选取出现频次最高的前50000的词做为词袋。具体操做请看代码 tensorflow/examples/tutorials/word2vec/word2vec_basic.py,其他的词用unkunk代替。采用一种所谓的”负采样”的操做,这种操做每次可让一个样本只更新权重矩阵中一小部分,减少训练过程当中的计算压力。 举例来讲:一个input output pair如:(“fox”,“quick”),由上面的分析可知,其true label为一个one−hot向量,而且该向量只是在quick的位置为1,其他的位置均为0,而且该向量的长度为vocab size,由此每一个样本都缓慢能更新权重矩阵,而”负采样”操做只是随机选择其他的部分word,使得其在true label的位置为0,那么咱们只更新对应位置的权重。例如咱们若是选择负采样数量为5,则选取5个其他的word,使其对应的output为0,这个时候output只是6个神经元,原本咱们一次须要更新300∗10,000参数,进行负采样操做之后只须要更新300∗6=1800个参数。