斯坦福大学-自然语言处理与深度学习(CS224n) 笔记 第三课 词向量(2)

一、word2vec 1、回顾:skip-grams word2vec的主要步骤是遍历整个语料库,利用每个窗口的中心词来预测上下文的单词,然后对每个这样的窗口利用SGD来进行参数的更新。 对于每一个窗口而言,我们只有2m+1个单词(其中m表示窗口的半径),因此我们计算出来的梯度向量是十分稀疏的。对于2dv的参数而言,我们只能更新一小部分。因此一个解决方法是提供一个单词到词向量的哈希映射。 2、负采
相关文章
相关标签/搜索