word2vec 的理解

1.CBOW 模型函数

CBOW模型包括输入层、投影层、输出层。模型是根据上下文来预测当前词,由输入层到投影层的示意图以下:优化

这里是对输入层的4个上下文词向量求和获得的当前词向量,实际应用中,上下文窗口大小能够设置。blog

输出层是一颗哈夫曼树,从向量W(t)到哈夫曼树的转化过程是这样的:以训练语料中出现的词当叶子结点,以各词在语料中出现的次数当权值来构造,这样不只能够保证出现频率更高的词能够被更快地搜索到,并且为使用Hierarchical softmax铺平了道路。ip

对于词典中的任意词w,必然存在一条从根节点到这个词的路径,哈夫曼树是一颗二叉树,咱们能够将根节点到叶子结点(词)的过程视为一个不断进行二分类(这里选择逻辑回归)的过程,那么每一次分类都会涉及到以一个几率选择一个分支,那么最后选择某个叶子结点(词)的几率就是从根节点到叶子结点过程当中全部节点选择几率的连乘。表达式为:二叉树

为何要获得选择每一个词对应的几率呢?由于这涉及到了咱们的最优化方法。咱们使用同神经几率语言模型相同的对数似然函数来优化参数,对数似然函数以下:搜索

而后就可使用随机梯度降低法来求解相关参数。方法

 2.Skip-gram模型im

Skip-gram模型已知的是当前词,须要对其上下文词汇进行预测,所以,其条件几率的形式为:margin

其中img

后面的过程与CBow模型相似。

相关文章
相关标签/搜索