词的向量表示

传统的NLP,表示词语一般是通过离散数据表示。One-Hot 这样表示的问题这两个向量是正交的,没有办法比较相似度。 怎么办?解决办法:将其编码成可以比较相似度的向量。 怎么编码呢? 我们知道语言的词跟词之间是有一定关联性的,能不能利用这些关联性设置我们的词向量来编码我们的词语。 Word2Vec方法简介: 他是一种训练词向量的一种框架。 我们有大量语料数据,其中每一个单词在语料中编码成一个向量。
相关文章
相关标签/搜索