词向量—Word2Vec入门及Gensim实践

时间 2020-12-23

标签词向量 Wor2dvec Gensim 栏目 Microsoft Office 繁體版

原文原文链接

在机器学习领域，语音识别和图像识别都比较容易做到。语音识别的输入数据可以是音频频谱序列向量所构成的matrix，图像识别的输入数据是像素点向量构成的矩阵。但是文本是一种抽象的非结构化的数据，显然不能直接把文本数据喂给机器当做输入，因此这里就需要对文本数据进行处理。 Word2vec是google在2013年推出的一个词向量实现工具(注意，不是词向量模型)，它的特点是将所有的词向量化，这样词与词之间

>>阅读原文<<