CS224N笔记——高级词向量表示

目录 复习 近似:skip-gram模型和负采样 其他方法 综合两者优势:GloVe 评测词向量 复习 word2vec主要思想 遍历整个语料库中的每个单词 预测每个单词(窗口的中心词)的上下文词汇 在每个窗口进行随机梯度下降法(SGD) 词向量的随机梯度 在每个窗口,只有最多2m+1个单词,非常稀疏。 我们也可以只更新实际出现过的词向量。 解决方案:每次更新只更新W矩阵中的少数列,或者为每个词语
相关文章
相关标签/搜索