word2vec 的理解

时间 2019-12-15

标签 word2vec word vec 理解栏目 Microsoft Office 繁體版

原文原文链接

1.CBOW 模型函数

CBOW模型包括输入层、投影层、输出层。模型是根据上下文来预测当前词，由输入层到投影层的示意图以下：优化

这里是对输入层的4个上下文词向量求和获得的当前词向量，实际应用中，上下文窗口大小能够设置。blog

输出层是一颗哈夫曼树，从向量W（t）到哈夫曼树的转化过程是这样的：以训练语料中出现的词当叶子结点，以各词在语料中出现的次数当权值来构造，这样不只能够保证出现频率更高的词能够被更快地搜索到，并且为使用Hierarchical softmax铺平了道路。ip

对于词典中的任意词w，必然存在一条从根节点到这个词的路径，哈夫曼树是一颗二叉树，咱们能够将根节点到叶子结点（词）的过程视为一个不断进行二分类（这里选择逻辑回归）的过程，那么每一次分类都会涉及到以一个几率选择一个分支，那么最后选择某个叶子结点（词）的几率就是从根节点到叶子结点过程当中全部节点选择几率的连乘。表达式为：二叉树

为何要获得选择每一个词对应的几率呢？由于这涉及到了咱们的最优化方法。咱们使用同神经几率语言模型相同的对数似然函数来优化参数，对数似然函数以下：搜索

而后就可使用随机梯度降低法来求解相关参数。方法

2.Skip-gram模型im

Skip-gram模型已知的是当前词，须要对其上下文词汇进行预测，所以，其条件几率的形式为：margin

其中img

后面的过程与CBow模型相似。