四步理解GloVe！(附代码实现)

时间 2019-11-06

标签理解 glove 代码实现繁體版

原文原文链接

1. 说说GloVe

正如GloVe论文的标题而言，**GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它能够把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，好比类似性（similarity）、类比性（analogy）等。**咱们经过对向量的运算，好比欧几里得距离或者cosine类似度，能够计算出两个单词之间的语义类似性。git

2. GloVe的实现步骤

2.1 构建共现矩阵

什么是共现矩阵？github

共现矩阵顾名思义就是共同出现的意思，词文档的共现矩阵主要用于发现主题(topic)，用于主题模型，如LSA。面试

局域窗中的word-word共现矩阵能够挖掘语法和语义信息，例如：算法

I like deep learning.
I like NLP.
I enjoy flying

有以上三句话，设置滑窗为2，能够获得一个词典：{"I like","like deep","deep learning","like NLP","I enjoy","enjoy flying","I like"}。数组

咱们能够获得一个共现矩阵(对称矩阵)：机器学习

中间的每一个格子表示的是行和列组成的词组在词典中共同出现的次数，也就体现了共现的特性。函数

GloVe的共现矩阵工具

根据语料库（corpus）构建一个共现矩阵（Co-ocurrence Matrix）X，矩阵中的每个元素 Xij 表明单词 i 和上下文单词 j 在特定大小的上下文窗口（context window）内共同出现的次数。通常而言，这个次数的最小单位是1，可是GloVe不这么认为：它根据两个单词在上下文窗口的距离 d，提出了一个衰减函数（decreasing weighting）：decay=1/d 用于计算权重，也就是说距离越远的两个单词所占总计数（total count）的权重越小。性能

2.2 词向量和共现矩阵的近似关系

构建词向量（Word Vector）和共现矩阵（Co-ocurrence Matrix）之间的近似关系，论文的做者提出如下的公式能够近似地表达二者之间的关系：学习

w_i^T\tilde{w_j}+b_i+\tilde{b}_j=log(X_{ij})

其中， $w_i^T和\tilde{w}_j$ 是咱们最终要求解的词向量； $b_i和\tilde{b}_j$ 分别是两个词向量的bias term。固然你对这个公式必定有很是多的疑问，好比它究竟是怎么来的，为何要使用这个公式，为何要构造两个词向量 $$w_i^T和\tilde{w}_j$$？请参考文末的参考文献。

2.3 构造损失函数

有了2.2的公式以后咱们就能够构造它的loss function了：

J=\sum_{i,j=1}^Vf(X_{ij})(w_i^T\tilde{w}_j+b_i+\tilde{b}_j-log(X_{ij}))^2

这个loss function的基本形式就是最简单的mean square loss，只不过在此基础上加了一个权重函数 $f(X_{ij})$ ，那么这个函数起了什么做用，为何要添加这个函数呢？咱们知道在一个语料库中，确定存在不少单词他们在一块儿出现的次数是不少的（frequent co-occurrences），那么咱们但愿：

这些单词的权重要大于那些不多在一块儿出现的单词（rare co-occurrences），因此这个函数要是非递减函数（non-decreasing）；
但咱们也不但愿这个权重过大（overweighted），当到达必定程度以后应该再也不增长；
若是两个单词没有在一块儿出现，也就是 $X_{ij}=0$ ，那么他们应该不参与到 loss function 的计算当中去，也就是f(x) 要知足 f(0)=0。

知足以上三个条件的函数有不少，论文做者采用了以下形式的分段函数：

这个函数图像以下所示：

2.4 训练GloVe模型

虽然不少人声称GloVe是一种无监督（unsupervised learing）的学习方式（由于它确实不须要人工标注label），但其实它仍是有label的，这个label就是以上公式中的 log(Xij)，而公式中的向量 $w和\tilde{w}$ 就是要不断更新/学习的参数，因此本质上它的训练方式跟监督学习的训练方法没什么不同，都是基于梯度降低的。

具体地，这篇论文里的实验是这么作的：**采用了AdaGrad的梯度降低算法，对矩阵 X 中的全部非零元素进行随机采样，学习曲率（learning rate）设为0.05，在vector size小于300的状况下迭代了50次，其余大小的vectors上迭代了100次，直至收敛。**最终学习获得的是两个vector是 $w和\tilde{w}$ ，由于 X 是对称的（symmetric），因此从原理上讲 $w和\tilde{w}$ 是也是对称的，他们惟一的区别是初始化的值不同，而致使最终的值不同。

因此这二者实际上是等价的，均可以当成最终的结果来使用。可是为了提升鲁棒性，咱们最终会选择二者之和 $w+\tilde{w}$ **做为最终的vector（二者的初始化不一样至关于加了不一样的随机噪声，因此能提升鲁棒性）。**在训练了400亿个token组成的语料后，获得的实验结果以下图所示：

这个图一共采用了三个指标：语义准确度，语法准确度以及整体准确度。那么咱们不难发现Vector Dimension在300时能达到最佳，而context Windows size大体在6到10之间。

3. GloVe与LSA、Word2Vec的比较

LSA（Latent Semantic Analysis）是一种比较早的count-based的词向量表征工具，它也是基于co-occurance matrix的，只不过采用了基于奇异值分解（SVD）的矩阵分解技术对大矩阵进行降维，而咱们知道SVD的复杂度是很高的，因此它的计算代价比较大。还有一点是它对全部单词的统计权重都是一致的。而这些缺点在GloVe中被一一克服了。

而word2vec最大的缺点则是没有充分利用全部的语料，因此GloVe实际上是把二者的优势结合了起来。从这篇论文给出的实验结果来看，GloVe的性能是远超LSA和word2vec的，但网上也有人说GloVe和word2vec实际表现其实差很少。

4. 代码实现

生成词向量

下载GitHub项目：github.com/stanfordnlp…

解压后，进入目录执行

make

进行编译操做。

而后执行 sh demo.sh 进行训练并生成词向量文件：vectors.txt和vectors.bin

GloVe代码实现

【机器学习通俗易懂系列文章】

5. 参考文献

做者：@mantchs

GitHub：github.com/NLP-LOVE/ML…

欢迎你们加入讨论！共同完善此项目！群号：【541954936】