词向量词嵌入 word embedding

时间 2019-11-06

标签向量嵌入 word embedding 栏目 Microsoft Office 繁體版

原文原文链接

词嵌入 word embedding

embedding 嵌入

embedding: 嵌入, 在数学上表示一个映射f:x->y, 是将x所在的空间映射到y所在空间上去，而且在x空间中每个x有y空间中惟一的y与其对应。嵌入，也就是把x在y空间中找到一个位置嵌入，一个x嵌入为一个惟一的y。算法

word embedding 词嵌入

也就是把当前预料文本库中每个词语都嵌入到一个向量空间当中，而且每个词语对应惟一的词向量，也就是词向量。学习

因此， one-hot也是word Embedding的一种实现，word2Vec也是为了实现 word embedding而提出的一种方案。编码

为何要提出 word Embedding？

本质的想法是，把语料库中的每个词语，映射成向量空间当中的惟一贯量，这个向量在空间中的方向和位置能某种程度上衡量这个词的意思、感情色彩等。因此从传统的基于统计的n-gram模型以后，提出了one-hot模型，开始走向词向量，而后发现one-hot模型属于硬分类，只有词语不一样和相同的信息，丢失了词义、不通词之间的词义，因而又提出了深度学习训练出的词向量模型，以后又通过改进，有了如今比较有名的word2vec模型。
word2vec模型自己实际上是包含两种算法的模型，把语料库中的词语映射到向量空间，得到词向量的一种手段。深度学习

embedding层

初学nlp知识的时候，常常听到embedding层，一直不知道是什么意思。
我理解的embedding层，是一个全链接层。这个全链接层的参数，也就是一个矩阵。将词的one-hot编码与这个全链接层的系数矩阵相乘，获得了一个新的向量，这个向量就是词向量，这样一层全链接层被称做了embedding层，其实就是一个用于讲词映射为向量的映射矩阵。那么这样一个系数矩阵的参数，也就是embedding层这个全链接层的参数是怎么获得的，要详细学习一下word2vec模型里面的两个算法，说的直白点是在用深度学习对词作其余任务的时候，将第一层全链接层的系数保留了下来，也就是则个映射矩阵，也就是embedding层。数学

写在最后

具体word2vec模型是怎么样的，暂且不在这里细说。只是我再学习的过程当中，绝大多数讲解中都讲wordEmbedding 和 word2vec混在一块儿说，也没说清楚什么是word embedding，看到有前辈讲的很清楚，我将本身的理解记录下来，以供他人参考。固然，个人理解多是不对的，欢迎批评指正统计