天然语言基础-语言模型

时间 2019-12-05

标签天然语言基础模型繁體版

原文原文链接

LANGUAGE MODELING TASK

什么是 LM 任务？git

计算一句话出现的几率

P\left(w_{1 : n}\right)=P\left(w_{1}\right) P\left(w_{2} | w_{1}\right) P\left(w_{3} | w_{1 : 2}\right) P\left(w_{4} | w_{1 : 3}\right) \ldots P\left(w_{n} | w_{1 : n-1}\right)

计算一系列单词以后出现的下一个单词的几率

p\left(w_{i} | w_{1}, w_{2}, \ldots, w_{i-1}\right)=\frac{p\left(w_{1}, w_{2}, \ldots, w_{i-1}, w_{i}\right)}{p\left(w_{1}, w_{2}, \ldots, w_{i-1}\right)}

能够看到上面的方法在预估条件几率时，使用的是统计值，即数据量足够多时，统计值接近去真实几率值。github

根据马尔科夫假设，咱们能够将条件几率进行简化，单词的条件几率只和前面的k个词有关：web

P\left(w_{i+1} | w_{1 : i}\right) \approx P\left(w_{i+1} | w_{i-k : i}\right)

P\left(w_{1 : n}\right) \approx \prod_{i=1}^{n} P\left(w_{i} | w_{i-k : i-1}\right)

k阶的语言模型受限于模型复杂度，当样本特别大时，为了解决计算成本，咱们只能减少k，而为了打破马尔科夫假设，如今有了注意力模型，可以对更多的前序单词进行建模。网络

n-gram 语言模型的两个主要问题app

Sparsity

传统计算条件几率的方法是统计方法函数

\hat{p}_{\mathrm{MLE}}\left(w_{i+1}=m | w_{i-k : i}\right)=\frac{\#\left(w_{i-k : i+1}\right)}{\#\left(w_{i-k : i}\right)}

统计出来的值等于真实几率的条件是样本足够多，那可能的问题有： $\#\left(w_{i-k : i+1}\right)$ 可能在训练集中从没出现，那这个值就是0，那几率就是0。那避免zero-probability 0几率的方法就是使用平滑技术（smoothing techniques），最多见的平滑方法是： $\mathrm{add}-\alpha$ post

\hat{p}_{\mathrm{add}-\alpha}\left(w_{i+1}=m | w_{i-k : i}\right)=\frac{\#\left(w_{i-k : i+1}\right)+\alpha}{\#\left(w_{i-k : i}\right)+\alpha|V|}

其中是词典大小， $0<\alpha<=1$ ..net

另一种平滑方法是：back-off3d

\hat{p}_{\mathrm{int}}\left(w_{i+1}=m | w_{i-k : i}\right)=\lambda_{w_{i-k : i}} \frac{\#\left(w_{i-k : i+1}\right)}{\#\left(w_{i-k : i}\right)}+\left(1-\lambda_{w_{i-k : i}}\right) \hat{p}_{\mathrm{int}}\left(w_{i+1}=m | w_{i-(k-1) : i}\right)

目前最好的平滑方法是：Kneser-Ney。cdn

Storage

咱们须要记录全部全部n-gram的数，随着n增长，模型参数急剧变大。

神经网络模型

rnn

模型图：

公式描述：

h_{t}=\sigma\left(W^{(h h)} h_{t-1}+W^{(h x)} x_{t}\right)

\hat{y}_{t}=\operatorname{softmax}\left(W^{(S)} h_{t}\right)

其中

$x_{1}, \ldots, x_{t-1}, x_{t}, x_{t+1}, \ldots x_{T}$ 是每一个时刻的输入向量
，t时刻的状态根据t-1时刻状态和输入计算出来
- $x_{t} \in \mathbb{R}^{d}$
- $W^{h x} \in \mathbb{R}^{D_{h} \times d}$
- $W^{h h} \in \mathbb{R}^{D_{h} \times D_{h}}$
- $h_{t-1} \in \mathbb{R}^{D_{h}}$
- $\sigma( )$ 非线性函数，此处是 sigmoid
:根据hidden计算输出
- $W^{(S)} \in \mathbb{R}^{|V| \times D_{h}}$
- $\hat{y} \in \mathbb{R}^{|V|}$

咱们能够看到模型中最主要的参数是最后一层的 $W^{S}$ ，随着vocabulary size的增长， $W^{S}$ 的大小愈来愈大。

rnn 模型的 loss

t时刻的loss

J^{(t)}(\theta)=-\sum_{j=1}^{|V|} y_{t, j} \times \log \left(\hat{y}_{t, j}\right)

总loss为时刻t累加:

J=\frac{1}{T} \sum_{t=1}^{T} J^{(t)}(\theta)=-\frac{1}{T} \sum_{t=1}^{T} \sum_{j=1}^{|V|} y_{t, j} \times \log \left(\hat{y}_{t, j}\right)

语言模型的困惑度定义：

\text { Perplexity }=2^{J}

rnn 模型的优缺点

优势
- 能够处理任意长度的时序数据
- 经过传递hidden state，能够利用t时刻以前的数据
缺点
- 计算慢，t时刻的状态依赖于t-1时刻，只能串行计算
- 实际训练过程当中，因为梯度消失/爆炸问题，很难利用很早以前的信息

梯度消失/爆炸问题

rnn模型的一个目标是：可以将hidden state传播下去，可是在实际中会出现梯度消失/爆炸问题，下面咱们以一个例子来讲明这个问题：例子：

对于梯度爆炸问题，咱们能够经过 Gradient Clipping来解决，对于梯度消失问题呢？咱们要保证反向传播的时候，梯度不能太小，那咱们就指望对于每一个 $\frac{\partial h_{t+1}}{\partial h_{t}}$ 都尽量接近于1，那相乘的时候，就不会变小了。

建议先读关于LSTM的文章：Understanding LSTM Networks

##参考

github.com/zhuanxuhit/…

web.stanford.edu/class/cs224…

相关文章

相关标签/搜索

语言基础篇

Swift语言基础

Java语言基础

C++语言基础

Java模板语言

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<