GloVe损失函数的理解

时间 2019-12-14

标签 glove 损失函数理解繁體版

原文原文链接

简介

GloVe是一种很是简单快速的训练词向量的算法。与复杂的word2vec相比，其是一个log双线性模型，仅经过一个简单的损失函数就可以获得很好的结果。算法

\begin{matrix} (1) & J = \sum_{i, j}^{N} f (X_{i, j}) (v_{i}^{T} v_{j} + b_{i} + b_{j} - l o g (X_{i, j}))^{2} \end{matrix}

其中， $v_{i}$ 和 $v_{j}$ 是i和j的词向量， $b_{i}$ 和 $b_{j}$ 是两个误差项， $f$ 是一个权重函数，N为词汇表大小
可是这个损失函数的意义却不是很直观，这里参照一篇博客写了一下对于这个损失函数的分析函数

思路

Glove首先会经过设置定义的窗口大小，进行统计获得词的共现矩阵。如 $X_{i, j}$ 表示词 $i$ 和 $j$ 同时出现的次数。共现矩阵是一个 $N \times N$ 的矩阵spa

而后咱们须要计算一些条件几率
定义.net

X_{i} = \sum_{j = 1}^{N} X_{i, j}

P_{i, k} = \frac{X_{i, k}}{X_{i}}

r a t i o_{i, j, k} = \frac{P_{i, k}}{P_{j, k}}

而后咱们分析这里的ratio会发现一些规律code

因此咱们想到，若是可以经过词向量 $v_{i}$ , $v_{j}$ 和 $v_{k}$ 获得类似的规律的，那么说明咱们的词向量是很不错的。即咱们想作的是获得函数 $g ()$ ，使之知足 orm

r a t i o_{i, j, k} = \frac{P_{i, k}}{P_{j, k}} = g (v_{i}, v_{j}, v_{k})

那么为了使两者尽可能想近，对于损失函数，一个直观的想法就是MSE，即 xml

\begin{matrix} (2) & J = \sum_{i, j, k}^{N} (\frac{P_{i, k}}{P_{j, k}} - g (v_{i}, v_{j}, v_{k}))^{2} \end{matrix}

不过这里的计算复杂度是 $N^{3}$ ，过于复杂，咱们须要进一步分析。咱们能够开始猜测一下 $g (v_{i}, v_{j}, v_{k})$ 是一个什么样的形式，由于其衡量了单词i，j之间的关系，那么咱们能够猜测其中含有 $v_{i} - v_{j}$ ，又由于其中还有对k的关系且最终是一个标量，那么咱们假设其存在一个内积，即 $(v_{i} - v_{j})^{T} v_{k}$
那么如今咱们有blog

\frac{P_{i, k}}{P_{j, k}} = g (v_{i}, v_{j}, v_{k}) = (v_{i} - v_{j})^{T} v_{k} = v_{i}^{T} v_{k} - v_{j}^{T} v_{k}

能够看到这里咱们和上面的损失函数有点相似了，可是仍是缺乏一个 $\exp$ ，咱们能够加上它看看，即 ip

\frac{P_{i, k}}{P_{j, k}} = \exp (v_{i}^{T} v_{k} - v_{j}^{T} v_{k}) = \frac{\exp (v_{i}^{T} v_{k})}{\exp (v_{j}^{T} v_{k})}

能够看到，加上 $\exp$ 以后分子分母的形式就彻底同样了，咱们能够将其一块儿考虑，即如今只须要知足ci

P_{i, j} = e x p (v_{i}^{T} v_{j})

两边取对数，咱们的损失函数就可以转化为

\begin{matrix} (3) & J = \sum_{i, j}^{N} (l o g (P_{i, j}) - v_{i}^{T} v_{j})^{2} \end{matrix}

这个损失函数已经更像一些了，可是仍是不太同样。这是由于咱们前面是存在一点问题的。根据前面咱们有

l o g (P_{i, j}) = v_{i}^{T} v_{j} 和 l o g (P_{j, i}) = v_{j}^{T} v_{i}

可是实际上，上面的式子右边是相等的，但左边并不相等（而且对于这个问题来讲，咱们能够想到target和context实际上是能够互换的，因此存在对称），即原有的对称性不知足了。咱们须要进一步处理一下。咱们将上面(3)的中的条件几率 $l o g (P_{i, j})$ 展开，获得

l o g (P_{i, j}) = l o g (X_{i, j}) - l o g (X_{i}) = v_{i}^{T} v_{j}

这里的 $l o g (X_{i})$ 是独立于j的，因此能够被吸取进 $b_{i}$ 变为

l o g (X_{i, j}) = v_{i}^{T} v_{j} + b_{i} + b_{j}

这样代价函数就变成了

J = \sum_{i, j}^{N} (v_{i}^{T} v_{j} + b_{i} + b_{j} - l o g (X_{i, j}))^{2}

而后加上词频越高权重越大（共现次数不多的实际上极可能是异常值，而且共现次数少的通常来讲含的信息也少）

\begin{matrix} (4) & J = \sum_{i, j}^{N} f (X_{i, j}) (v_{i}^{T} v_{j} + b_{i} + b_{j} - l o g (X_{i, j}))^{2} \end{matrix}

权重函数

f (x) = {\begin{cases} (x / x m a x)^{0.75}, & if x < x m a x \\ 1, & if x >= x m a x \end{cases}

引用

Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1532-1543.
https://blog.csdn.net/codertc/article/details/73864097

<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">

来自为知笔记(Wiz)