word2vec算法理解和数学推导

从字面意思就可以理解word2vec是把文本转换成向量,那么文本如何转换成向量呢,最简单的方法大家都会想到独热编码,但是独热编码的缺点也很明显,首先独热编码向量是正交的,任何两个独热编码相乘都等于0,所以无法通过任何的计算来得到两个词的相似度;还有一个原因就是维度过大,比如100000个词汇用独热编码表示成向量,就会有100000个维度,简直就是维度灾难。所以一般来说,在词语向量化的时候都不使用独
相关文章
相关标签/搜索