Datawhale零基础入门NLP赛事 - Task5 基于深度学习的文本分类2-1Word2Vec

使用gensim训练word2vec

  1. gensim简介

    1.1 Gensim
    Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。
    它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法, 支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。

    1.2 基本概念
    1.2.1 语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量。

    1.2.2 向量(Vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。

    1.2.3 稀疏向量(SparseVector):通常,我们可以略去向量中多余的0元素。此时,向量中的每一个元素是一个(key, value)的元组。

    1.2.4 模型(Model):是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。

  2. word2vec
    2.1word2vec模型其实就是简单化的神经网络
    在这里插入图片描述 输入是One-Hot Vector,Hidden Layer没有**函数,也就是线性的单元。Output Layer维度跟Input Layer的维度一样,用的是Softmax回归。当这个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,例如隐层的权重矩阵。