NLP入门学习路线 word2vec 原理分析

NLP和ML相关资料

ML
Awesome NLP
Word2vec blog
ML+Learning
图解word2vec

NLP

在这里插入图片描述
在这里插入图片描述

NLP主要研究方向

在这里插入图片描述

NLP流程

在这里插入图片描述

NLP学习

看了nlp的一般任务的流程,决定从embedding入手好好学习。

embedding

万物皆可embedding。已经忘记了是谁说的了,肯定有人说过。
为什么embedding,最终的目的是为了形成能够让计算机理解的形式。
那么one hot 也可以做到,为什么不用?
1.one hot确实是计算机可以理解的形式,但会引入维度灾难
2.one hot没法代表两个词之间的关系,比如like 和love应该是意思相近的词(中国人的视角),但是如果用one hot就没法度量了。
在这里插入图片描述
所以embedding的目的主要有以上两个。

word embedding

一下主要说明word2vec的原理,不涉及实现,主要在skipgram 以及负采样,且窗口大小均取为2。

word2vec

skipgram

在这里插入图片描述
用中心词去预测左边2【窗口大小】个词和右边两个词。
在这里插入图片描述
但是为了提高速度,参考上面最后一个链接,修改了一下模型,如下所示
在这里插入图片描述
输入数据就要重新构造,变化如下:
此时样本target都是1,模型肯定是学不出来东西的,所以需要负采样,即将非窗口内的word作为负样本统计出来在这里插入图片描述
具体做法需要再深入研究。

里面涉及的参数

embedding_size 一般1e1-1e2量级
窗口大小 一般2-15
负样本数量 一般5足够

在这里插入图片描述