深度学习笔记(32):word2vec模型简介

前因 与使用ASCII或者其他编码方式编码的字符能表达万物,但是对于nlp来讲,处理的最小单元是词汇而不是字符。所以我们必须建立一个字典集合,将所有的出现的词汇放到其中,然后将他们映射成onehot,但是这么做的话,每个单词的维度都是字典集合的大小那么大,而且一堆零一个一纯粹是简单的先后顺序问题,并没有什么语义上的实际意义。所以我们需要做若干件事:降维,信息量增大。 要做到这两点,一个直观的想法就
相关文章
相关标签/搜索