1.学习Word2Vec的使用和基础原理
2.学习使用TextCNN、TextRNN进行文本表示
基本思想:通过单词和上下文彼此预测
对应的两个基本算法
1.Skip-grams (SG):预测上下文
2.Continuous Bag of Words (CBOW):预测目标单词
TextCNN利用CNN(卷积神经网络)进行文本特征抽取,不同大小的卷积核分别抽取n-gram特征,MaxPooling之后拼接成文本向量。
TextRNN利用RNN(循环神经网络)进行文本特征抽取,由于文本本身是一种序列,而LSTM天然适合建模序列数据。TextRNN将句子中每个词的词向量依次输入到双向双层LSTM,分别将两个方向最后一个有效位置的隐藏层拼接成一个向量作为文本的表示。