word2vec背后的数学原理+从零开始纯Python实现(下)

引言 在上篇文章中我们了解到了word2vec中CBOW和Skip-Gram的原理,有一个主要的问题是计算量太大了。想象一下百万级别的词汇量,那个softmax需要计算百万次。 本文就来介绍两种优化方法,分别是层次Softmax(Hierarchical softmax)和负采样(Negative Sampling)。 Hierarchical softmax 在介绍这种方法之前,我们来回顾一下数
相关文章
相关标签/搜索