word2vec 介绍

1.背景 在NLP中,传统算法通常使用one-hot形式表示一个词,存在以下问题: 1)维度爆炸,词表通常会非常大,导致词向量维度也会非常大。 2)损失语义信息,one hot随机给每个词语进行编号映射,无法表示词语之间的关系。 所以word embeding的优势如下: 1)将词语映射成一个固定维度的向量,节省空间。 2)词向量可能会具备一定的语义信息,将相似的词语放到相近的向量空间(比如香蕉和
相关文章
相关标签/搜索