词嵌入之Word2vec

one-hot向量的局限性 假设词典大小为N(词典中不同词的数量),每个词可以和从0到N−1的连续整数索引一一对应。使用one-hot方式来表示单词时,词向量维度大小为整个词汇表的大小,改词索引位置为1,其余位置为0,每个词就表示成了一个长度为N的向量,可以直接被神经网络使用。虽然one-hot词向量构造起来很容易,但有两个缺点: 在语料库过大时,词汇表可能达到百万级别,但向量只有一个位置是1,其
相关文章
相关标签/搜索