【转载】深度学习与天然语言处理(1)_斯坦福cs224d Lecture 1

时间 2019-11-17

标签转载深度学习天然语言处理斯坦福 cs224d lecture 繁體版

原文原文链接

原文地址http://blog.csdn.net/longxinchen_ml/article/details/51567960

目录(?)[-]bash

基于迭代的方法

做者：寒小阳 && 龙心尘
时间：2016年6月
出处：
http://blog.csdn.net/han_xiaoyang/article/details/51567822
http://blog.csdn.net/longxinchen_ml/article/details/51567960
声明：版权全部，转载请联系做者并注明出处markdown

说明：本文为斯坦福大学CS224d课程的中文版内容笔记，已获得斯坦福大学课程@Richard Socher教授的受权翻译与发表ide

特别鸣谢：@Fantzy同窗对部份内容翻译的帮助
课堂笔记：第一部分函数

春季2016学习

关键词：天然语言处理（NLP）.词向量（Word Vectors）.奇异值分解(Singular Value Decomposition). Skip-gram. 词组的持续爆（CBOW）,负采样样本（Negative Sampling）大数据

这是本课程的第一节，咱们会先介绍天然语言处理（NLP）的概念和NLP如今所面对问题；而后开始讨论用数学向量表明天然语言词组的设想。最后咱们会讨论现行的词向量构造方法。优化

1. 天然语言处理简介

在最开始我们先说说什么是NLP。NLP的目的是设计出算法，让计算机“懂得”人类的天然语言，从而为人类执行任务。这些任务分为几个难度等级，例如网站

容易的任务：ui

语法检查
关键词搜索
查找同义词

中等难度的任务：

从网站，文件或其余来源中提取信息

比较有挑战的任务：

机器翻译（例如：中译英）
语意分析（提问者说的意思是什么）
指代分析（例如. “他”或“它”在一个特定文件中指的是什么）
回答问题（例如.回答“Jeopardy Questions”一种涉及人类社会各个方面的综艺问答）

在处理全部NLP任务的时候，咱们首先须要解决很是重要的一个问题(多是最重要的)：用什么方式将词组输入到模型中去。简单的NLP问题可能并不须要将词组做为独立个体对待（atomic symbols），但如今的问题绝大多数须要这样一个预处理，来体现词组之间关联/类似性和区别。因此咱们引入词向量的概念，若是把词编码成词向量，咱们很容易从向量的角度去衡量不一样的词之间的关联与差别（经常使用的距离测度法，包括Jaccard, Cosine, Euclidean等等，注：距离测度法，即用一个可观测度量的量来描述一个不能直接观测度量的量）。

2.词向量

咱们拿英文举例。

英语中大约有1300万个词组（token，自定义字符串，译做词组），不过他们所有是独立的吗？并非哦，好比有一些词组，“Feline猫科动物”和“Cat猫”，“Hotel宾馆“和”Motel汽车旅馆”，其实有必定的关联或者类似性在。所以，咱们但愿用词向量编码词组，使它表明在词组的N维空间中的一个点（而点与点之间有距离的远近等关系，能够体现深层一点的信息）。每个词向量的维度均可能会表征一些意义（物理含义），这些意义咱们用“声明speech”来定义。例如，语义维度能够用来代表时态（过去与如今与将来），计数（单数与复数），和性别（男性与女性）。

提及来，词向量的编码方式其实挺有讲究的。我们从最简单的看起，最简单的编码方式叫作one-hot vector：假设咱们的词库总共有n个词，那咱们开一个1*n的高维向量，而每一个词都会在某个索引index下取到1，其他位置所有都取值为0.词向量在这种类型的编码中以下图所示：

w a a r d c a r k = ⎡⎣⎢⎢⎢⎢⎢⎢⎢ 1 0 0 ⋮ 0 ⎤⎦⎥⎥⎥⎥⎥⎥⎥, w a = ⎡⎣⎢⎢⎢⎢⎢⎢⎢ 0

这种词向量编码方式简单粗暴，咱们将每个词做为一个彻底独立的个体来表达。遗憾的是，这种方式下，咱们的词向量没办法给咱们任何形式的词组类似性权衡。例如:

(w h o t e l) T w m o t e l = (w h o t e l) T w c a t = 0

究其根本你会发现，是你开了一个极高维度的空间，而后每一个词语都会占据一个维度，所以没有办法在空间中关联起来。所以咱们可能能够把词向量的维度下降一些，在这样一个子空间中，可能本来没有关联的词就关联起来了。

3.基于SVD的方法

这是一种构造词嵌入（即词向量）的方法，咱们首先会遍历全部的文本数据集，而后统计词出现的次数，接着用一个矩阵

3.1 词-文档矩阵

最初的想法是，咱们猜想相互关联的词组同时出如今相同的文件中的几率很高。例如，“银行”、“债券”、“股票”、“钱”等均可能出如今一块儿。可是，“银行”、“章鱼”、“香蕉”和“曲棍球”可能不会一直一块儿出现。基于这个想法，咱们创建一个词组文档矩阵

3.2 基于窗口的共现矩阵X

咱们仍是用同样的逻辑，不过换一种统计方式，把矩阵

而后咱们对X作奇异值分解，观察观察奇异值（矩阵的对角元素），并根据咱们期待保留的百分比来进行阶段（只保留前k个维度）：

而后咱们把子矩阵

对X采用奇异值分解

经过选择前K个奇异向量来进行降维：

这两种方法都能产生词向量，它们可以充分地编码语义和句法的信息，但同时也带来了其余的问题：

矩阵的维度会常常变化（新的词语常常会增长，语料库的大小也会随时变化）。
矩阵是很是稀疏的，由于大多数词并不一样时出现。
矩阵的维度一般很是高（
训练须要
须要专门对矩阵X进行特殊处理，以应对词组频率的极度不平衡的情况

固然，有一些办法能够缓解一下上述提到的问题：

忽视诸如“he”、“the” 、“has”等功能词。
应用“倾斜窗口”（ramp window），即:根据文件中词组之间的距离给它们的共现次数增长相应的权重。
使用皮尔森的相关性（Pearson correlation），将0记为负数，而不是它原来的数值。

不过缓解终归只是缓解，我们须要更合理地解决这些问题，这也就是咱们立刻要提到的基于迭代的方法。

4.基于迭代的方法

如今咱们退后一步，来尝试一种新的方法。在这里咱们并不计算和存储全局信息，由于这会包含太多大型数据集和数十亿句子。咱们尝试建立一个模型，它可以一步步迭代地进行学习，并最终得出每一个单词基于其上下文的条件几率。

词语的上下文：
一个词语的上下文是它周围C个词之内的词。若是C=2，句子"The quick brown fox jumped over the lazy dog"中单词"fox"的上下文为 {"quick", "brown", "jumped", "over"}.

咱们想创建一个几率模型，它包含已知和未知参数。每增长一个训练样本，它就能从模型的输入、输出和指望输出（标签），多学到一点点未知参数的信息。

在每次迭代过程当中，这个模型都可以评估其偏差，并按照必定的更新规则，惩罚那些致使偏差的参数。这种想法能够追溯到1986年（Learning representations by back-propagating errors. David E. Rumelhart, Geoffrey E. Hinton, and Ronald J.Williams (1988)），咱们称之为偏差“反向传播”法。

4.1 语言模型（1-gram,2-gram等等）

首先，咱们须要创建一个能给“分词序列”分配几率的模型。咱们从一个例子开始：

"The cat jumped over the puddle."（猫跳过水坑）

一个好的语言模型会给这句话以很高的几率，由于这是一个在语法和语义上彻底有效的句子。一样地，这句”stock boil fish is toy”（股票煮鱼是玩具）就应该有一个很是低的几率，由于它是没有任何意义的。在数学上，咱们能够令任意给定的n个有序的分词序列的几率为：

P (w 1, w 2, w 3 . . . w n)

P (w 1, w 2, w 3 . . . w n) = \prod i = 1 N P (w i)

P (w 1, w 2, w 3 . . . w n) = \prod i = 2 N P (w i | w i - 1)

4.2 连续词袋模型（CBOM）

有种模型是以{“The”, “cat”, ’over”, “the’, “puddle”}为上下文，可以预测或产生它们中心的词语”jumped”，叫作连续词袋模型。

上面是最粗粒度的描述，我们来深刻一点点，看点细节。

首先，咱们要创建模型的一些已知参数。它们就是将句子表示为一些one-hot向量，做为模型的输入，我们记为x(c)吧。模型的输出记为y(c)吧。由于连续词袋模型只有一个输出，因此其实咱们只需记录它为y。在咱们上面举的例子中，y就是咱们已经知道的（有标签的）中心词（如本例中的”jumped”）。

好了，已知参数有了，如今咱们一块儿来定义模型中的未知参数。咱们创建两矩阵，

连续词袋模型（CBOM）中的各个记号：

那这个模型是如何运做的呢？咱们把整个过程拆分红如下几步：

对于m个词长度的输入上下文，咱们产生它们的one-hot向量（
咱们获得上下文的嵌入词向量（
将这些向量取平均
产生一个得分向量
将得分向量转换成几率分布形式
咱们但愿咱们产生的几率分布 ,与真实几率分布

用一幅图来表示就是下面这个样子：

经过上面说的种种步骤，咱们知道有了矩阵U、V整个过程是如何运做的，那咱们怎样找到U和V呢？——咱们须要有一个目标函数。一般来讲，当咱们试图从已知几率学习一个新的几率时，最多见的是从信息论的角度寻找方法来评估两个几率分布的差距。其中广受好评又普遍应用的一个评估差别/损失的函数是交叉熵：

H (y^, y) = - \sum j = 1 | V | y j l o g (y^j)

结合咱们当下的例子，y只是一个one-hot向量，因而上面的损失函数就能够简化为：

H (y^, y) = - y i l o g (y^i)

咱们用c表示y这个one-hot向量取值为1的那个维度的下标。因此在咱们预测为准确值的状况下

4.3 Skip-Gram 模型

很上面提到的模型对应的另外一种思路，是以中心的词语”jumped”为输入，可以预测或产生它周围的词语”The”, “cat”, ’over”, “the”, “puddle”等。这里咱们叫”jumped”为上下文。咱们把它叫作Skip-Gram 模型。
这个模型的创建与连续词袋模型（CBOM）很是类似，但本质上是交换了输入和输出的位置。咱们令输入的one-hot向量（中心词）为x（由于它只有一个），输出向量为y(j)。U和V的定义与连续词袋模型同样。

Skip-Gram 模型中的各个记号：

对应到上面部分，咱们能够把Skip-Gram 模型的运做方式拆分红如下几步：

生成one-hot输入向量x。
获得上下文的嵌入词向量
由于这里不须要取平均值的操做，因此直接是
经过
将得分向量转换成几率分布形式
咱们但愿咱们产生的几率分布与真实几率分布

用一幅图来表示这个过程以下：

4.4 负面抽样（Negative Sampling）

咱们再次观察一下目标函数，注意到对整个单词表|V|求和的计算量是很是巨大的，任何一个对目标函数的更新和求值操做都会有O(|V|)的时间复杂度。咱们须要一个思路去简化一下，咱们想办法去求它的近似。
对于每一步训练，咱们不去循环整个单词表，而只是抽象一些负面例子就够了！咱们能够从一个噪声分布

目标函数
梯度
更新规则

Mikolov ET AL.在他的《Distributed Representations of Words and Phrases and their Compositionality》中提出了负面抽样。虽然负面抽样是基于Skip-Gram 模型，它其实是对一个不一样的目标函数进行最优化。考虑一个“词-上下文”对（w,c），令P(D = 1|w, c)为(w, c)来自于语料库的几率。相应的，P(D = 0|w, c) 则是不来自于语料库的几率。咱们首先对P(D = 1|w, c)用sigmoid函数建模：

p (D = 1 | w, c, θ) = 1 1 + e ( - v T c v w )

注意这里的

l o g σ (u (c - m + j) T . v c) + \sum k = 1 K l o g σ (- u ˜ T k . v

在这里

i s : 0.9 3 / 4 = 0.92

你看，通过3/4这样一个指数处理，”Bombastic”(少见)被采样的几率是以前的3倍，而“is”这个词(多见)被采样的几率只是稍微增加了一点点。

【转载】 深度学习与天然语言处理(1)_斯坦福cs224d Lecture 1