词向量—Word2Vec入门及Gensim实践

在机器学习领域,语音识别和图像识别都比较容易做到。语音识别的输入数据可以是音频频谱序列向量所构成的matrix,图像识别的输入数据是像素点向量构成的矩阵。但是文本是一种抽象的非结构化的数据,显然不能直接把文本数据喂给机器当做输入,因此这里就需要对文本数据进行处理。 Word2vec是google在2013年推出的一个词向量实现工具(注意,不是词向量模型),它的特点是将所有的词向量化,这样词与词之间
相关文章
相关标签/搜索