本文是吴恩达老师的深度学习课程[1]笔记部分。 做者:黄海广[2] 主要编写人员:黄海广、林兴木(第四全部底稿,第五课第一二周,第三周前三节)、祝彦森:(第三课全部底稿)、贺志尧(第五课第三周底稿)、王翔、胡瀚文、 余笑、 郑浩、李怀松、 朱越鹏、陈伟贺、 曹越、 路皓翔、邱牧宸、 唐天泽、 张浩、 陈志豪、 游忍、 泽霖、沈伟臣、 贾红顺、 时超、 陈哲、赵一帆、 胡潇杨、段希、于冲、张鑫倩 参与编辑人员:黄海广、陈康凯、石晴路、钟博彦、向伟、严凤龙、刘成 、贺志尧、段希、陈瑶、林家泳、王翔、 谢士晨、蒋鹏 备注:笔记和做业(含数据、原始做业文件)、视频都在 github[3]中下载。 我将陆续将课程笔记发布在公众号“机器学习初学者”,敬请关注。
在本课程中你将学会序列模型,它是深度学习中最使人激动的内容之一。循环神经网络(RNN)之类的模型在语音识别、天然语言处理和其余领域中引发变革。在本节课中,你将学会如何自行建立这些模型。咱们先看一些例子,这些例子都有效使用了序列模型。git
在进行语音识别时,给定了一个输入音频片断 X
,并要求输出对应的文字记录Y 。这个例子里输入和输出数据都是序列模型,由于X 是一个按时播放的音频片断,输出 Ygithub
是一系列单词。因此以后将要学到的一些序列模型,如循环神经网络等等在语音识别方面是很是有用的。算法
音乐生成问题是使用序列数据的另外一个例子,在这个例子中,只有输出数据 Y
是序列,而输入数据能够是空集,也能够是个单一的整数,这个数可能指代你想要生成的音乐风格,也多是你想要生成的那首曲子的头几个音符。输入的 X能够是空的,或者就是个数字,而后输出序列 Y。
在处理情感分类时,输入数据 X是序列,你会获得相似这样的输入:“There is nothing to like in this movie.”,你认为这句评论对应几星?编程
系列模型在DNA序列分析中也十分有用,你的DNA能够用A、C、G、T四个字母来表示。因此给定一段DNA序列,你可以标记出哪部分是匹配某种蛋白质的吗?网络
在机器翻译过程当中,你会获得这样的输入句:“Voulez-vou chante avecmoi?”(法语:要和我一块儿唱么?),而后要求你输出另外一种语言的翻译结果。架构
在进行视频行为识别时,你可能会获得一系列视频帧,而后要求你识别其中的行为。app
在进行命名实体识别时,可能会给定一个句子要你识别出句中的人名。框架
因此这些问题均可以被称做使用标签数据 (X,Y)做为训练集的监督学习。但从这一系列例子中你能够看出序列问题有不少不一样类型。有些问题里,输入数据 X和输出数据Y都是序列,但就算在那种状况下,X和Y有时也会不同长。或者像上图编号1所示和上图编号2的XY和有相同的数据长度。在另外一些问题里,只有X 或者只有Yeclipse
是序列。机器学习
因此在本节咱们学到适用于不一样状况的序列模型。
下节中咱们会定义一些定义序列问题要用到的符号。
本节先从定义符号开始一步步构建序列模型。
好比说你想要创建一个序列模型,它的输入语句是这样的:“Harry Potter and Herminoe Granger invented a new spell.”,(这些人名都是出自于J.K.Rowling笔下的系列小说Harry Potter)。假如你想要创建一个可以自动识别句中人名位置的序列模型,那么这就是一个命名实体识别问题,这经常使用于搜索引擎,好比说索引过去24小时内全部新闻报道说起的人名,用这种方式就可以恰当地进行索引。命名实体识别系统能够用来查找不一样类型的文本中的人名、公司名、时间、地点、国家名和货币名等等。
如今给定这样的输入数据
,假如你想要一个序列模型输出,使得输入的每一个单词都对应一个输出值,同时这个
可以代表输入的单词是不是人名的一部分。技术上来讲这也许不是最好的输出形式,还有更加复杂的输出形式,它不只可以代表输入词是不是人名的一部分,它还可以告诉你这我的名在这个句子里从哪里开始到哪里结束。好比Harry Potter(上图编号1所示)、Hermione Granger(上图标号2所示)。
更简单的那种输出形式:
接下来咱们讨论一下怎样表示一个句子里单个的词。想要表示一个句子里的单词,第一件事是作一张词表,有时也称为词典,意思是列一列你的表示方法中用到的单词。这个词表(下图所示)中的第一个词是a,也就是说词典中的第一个单词是a,第二个单词是Aaron,而后更下面一些是单词and,再后面你会找到Harry,而后找到Potter,这样一直到最后,词典里最后一个单词多是Zulu。
所以a是第一个单词,Aaron是第二个单词,在这个词典里,and出如今367这个位置上,Harry是在4075这个位置,Potter在6830,词典里的最后一个单词Zulu多是第10,000个单词。因此在这个例子中我用了10,000个单词大小的词典,这对现代天然语言处理应用来讲过小了。对于商业应用来讲,或者对于通常规模的商业应用来讲30,000到50,000词大小的词典比较常见,可是100,000词的也不是没有,并且有些大型互联网公司会用百万词,甚至更大的词典。许多商业应用用的词典多是30,000词,也多是50,000词。不过我将用10,000词大小的词典作说明,由于这是一个很好用的整数。
若是你选定了10,000词的词典,构建这个词典的一个方法是遍历你的训练集,而且找到前10,000个经常使用词,你也能够去浏览一些网络词典,它能告诉你英语里最经常使用的10,000个单词,接下来你能够用one-hot表示法来表示词典里的每一个单词。
上节视频中,你了解了咱们用来定义序列学习问题的符号。如今咱们讨论一下怎样才能创建一个模型,创建一个神经网络来学习X
到Y
的映射。
能够尝试的方法之一是使用标准神经网络,在咱们以前的例子中,咱们有9个输入单词。想象一下,把这9个输入单词,多是9个one-hot向量,而后将它们输入到一个标准神经网络中,通过一些隐藏层,最终会输出9个值为0或1的项,它代表每一个输入单词是不是人名的一部分。
但结果代表这个方法并很差,主要有两个问题,
时间步中用于计算。
如今为了帮咱们创建更复杂的神经网络,我实际要将这个符号简化一下,我在下一张幻灯片里复制了这两个等式(上图编号1所示的两个等式)。
好就这么多,你如今知道了基本的循环神经网络,下节课咱们会一块儿来讨论反向传播,以及你如何可以用RNN进行学习。
以前咱们已经学过了循环神经网络的基础结构,在本节视频中咱们未来了解反向传播是怎样在循环神经网络中运行的。和以前同样,当你在编程框架中实现循环神经网络时,编程框架一般会自动处理反向传播。但我认为,在循环神经网络中,对反向传播的运行有一个粗略的认识仍是很是有用的,让咱们来一探究竟。
在以前你已经见过对于前向传播(上图蓝色箭头所指方向)怎样在神经网络中从左到右地计算这些激活项,直到输出全部地预测结果。而对于反向传播,我想你已经猜到了,反向传播地计算方向(上图红色箭头所指方向)与前向传播基本上是相反的。
但愿你大体了解了前向和反向传播是如何在RNN中工做的,到目前为止,你只见到了RNN中一个主要的例子,其中输入序列的长度和输出序列的长度是同样的。在下节课将展现更多的RNN架构,这将让你可以处理一些更普遍的应用。
还有一些状况,输入长度和输出长度不一样,他们都是序列但长度不一样,好比机器翻译,一个法语句子和一个英语句子不一样数量的单词却能表达同一个意思。
因此咱们应该修改基本的RNN结构来处理这些问题,这个视频的内容参考了Andrej Karpathy的博客,一篇叫作《循环神经网络的非理性效果》(“The Unreasonable Effectiveness of Recurrent Neural Networks”)的文章,咱们看一些例子。
为了完整性,还要补充一个“一对一”(one-to-one)的结构(上图编号3所示),这个可能没有那么重要,这就是一个小型的标准的神经网络,输入x而后获得输出y,咱们这个系列课程的前两个课程已经讨论过这种类型的神经网络了。
除了“多对一”的结构,也能够有“一对多”(one-to-many)的结构。对于一个“一对多”神经网络结构的例子就是音乐生成(上图编号1所示),事实上,你会在这个课后编程练习中去实现这样的模型,你的目标是使用一个神经网络输出一些音符。对应于一段音乐,输入x能够是一个整数,表示你想要的音乐类型或者是你想要的音乐的第一个音符,而且若是你什么都不想输入,x能够是空的输入,可设为0向量。
这样这个神经网络的结构,首先是你的输入x,而后获得RNN的输出,第一个值,而后就没有输入了,再获得第二个输出,接着输出第三个值等等,一直到合成这个音乐做品的最后一个音符,这里也能够写上输入
(上图编号3所示)。有一个后面才会讲到的技术细节,当你生成序列时一般会把第一个合成的输出也喂给下一层(上图编号4所示),因此实际的网络结构最终就像这个样子。
咱们已经讨论了“多对多”、“多对一”、“一对一”和“一对多”的结构,对于“多对多”的结构还有一个有趣的例子值得详细说一下,就是输入和输出长度不一样的状况。你刚才看过的多对多的例子,它的输入长度和输出长度是彻底同样的。而对于像机器翻译这样的应用,输入句子的单词的数量,好比说一个法语的句子,和输出句子的单词数量,好比翻译成英语,这两个句子的长度可能不一样,因此还须要一个新的网络结构,一个不一样的神经网络(上图编号2所示)。首先读入这个句子,读入这个输入,好比你要将法语翻译成英语,读完之
这就是一个“多对多”结构的例子,到这周结束的时候,你就能对这些各类各样结构的基本构件有一个很好的理解。严格来讲,还有一种结构,咱们会在第四周涉及到,就是“注意力”(attention based)结构,可是根据咱们如今画的这些图很差理解这个模型。
如今,你已经了解了大部分基本的模块,这些就是差很少全部的神经网络了,除了序列生成,有些细节的问题咱们会在下节课讲解。
我但愿你从本视频中了解到用这些RNN的基本模块,把它们组合在一块儿就能够构建各类各样的模型。可是正如我前面提到的,序列生成还有一些不同的地方,在这周的练习里,你也会实现它,你须要构建一个语言模型,结果好的话会获得一些有趣的序列或者有意思的文本。下节课深刻探讨序列生成。
在天然语言处理中,构建语言模型是最基础的也是最重要的工做之一,而且能用RNN很好地实现。在本视频中,你将学习用RNN构建一个语言模型,在本周结束的时候,还会有一个颇有趣的编程练习,你能在练习中构建一个语言模型,并用它来生成莎士比亚文风的文本或其余类型文本。
因此什么是语言模型呢?好比你在作一个语音识别系统,你听到一个句子,“the apple and pear(pair) salad was delicious.”,因此我究竟说了什么?我说的是 “the apple and pair salad”,仍是“the apple and pear salad”?(pear和pair是近音词)。你可能以为我说的应该更像第二种,事实上,这就是一个好的语音识别系统要帮助输出的东西,即便这两句话听起来是如此类似。而让语音识别系统去选择第二个句子的方法就是使用一个语言模型,他能计算出这两句话各自的可能性。
举个例子,一个语音识别模型可能算出第一句话的几率是,
如今还有一个问题若是你的训练集中有一些词并不在你的字典里,好比说你的字典有10,000个词,10,000个最经常使用的英语单词。如今这个句,“The Egyptian Mau is a bread of cat.”其中有一个词Mau,它可能并非预先的那10,000个最经常使用的单词,在这种状况下,你能够把Mau替换成一个叫作UNK的表明未知词的标志,咱们只针对UNK创建几率模型,而不是针对这个具体的词Mau。
而后再到下一个时间步,不管你获得什么样的用one-hot码表示的选择结果,都把它传递到下一个时间步,而后对第三个词进行采样。无论获得什么都把它传递下去,一直这样直到最后一个时间步。
那么你要怎样知道一个句子结束了呢?方法之一就是,若是表明句子结尾的标识在你的字典中,你能够一直进行采样直到获得EOS标识(上图编号6所示),这表明着已经抵达结尾,能够中止采样了。另外一种状况是,若是你的字典中没有这个词,你能够决定从20个或100个或其余个单词进行采样,而后一直将采样进行下去直到达到所设定的时间步。不过这种过程有时候会产生一些未知标识(上图编号7所示),若是你要确保你的算法不会输出这种标识,你能作的一件事就是拒绝采样过程当中产生任何未知的标识,一旦出现就继续在剩下的词中进行重采样,直到获得一个不是未知标识的词。若是你不介意有未知标识产生的话,你也能够彻底无论它们。
这就是你如何从你的RNN语言模型中生成一个随机选择的句子。直到如今咱们所创建的是基于词汇的RNN模型,意思就是字典中的词都是英语单词(下图编号1所示)。
根据你实际的应用,你还能够构建一个基于字符的RNN结构,在这种状况下,你的字典仅包含从a到z的字母,可能还会有空格符,若是你须要的话,还能够有数字0到9,若是你想区分字母大小写,你能够再加上大写的字母,你还能够实际地看一看训练集中可能会出现的字符,而后用这些字符组成你的字典(上图编号2所示)。
使用基于字符的语言模型有有点也有缺点,优势就是你没必要担忧会出现未知的标识,例如基于字符的语言模型会将Mau这样的序列也视为可能性非零的序列。而对于基于词汇的语言模型,若是Mau不在字典中,你只能把它看成未知标识UNK。不过基于字符的语言模型一个主要缺点就是你最后会获得太多太长的序列,大多数英语句子只有10到20个的单词,但却可能包含不少不少字符。因此基于字符的语言模型在捕捉句子中的依赖关系也就是句子较前部分如何影响较后部分不如基于词汇的语言模型那样能够捕捉长范围的关系,而且基于字符的语言模型训练起来计算成本比较高昂。因此我见到的天然语言处理的趋势就是,绝大多数都是使用基于词汇的语言模型,但随着计算机性能愈来愈高,会有更多的应用。在一些特殊状况下,会开始使用基于字符的模型。可是这确实须要更昂贵的计算力来训练,因此如今并无获得普遍地使用,除了一些比较专门须要处理大量未知的文本或者未知词汇的应用,还有一些要面对不少专有词汇的应用。
在现有的方法下,如今你能够构建一个RNN结构,看一看英文文本的语料库,而后创建一个基于词汇的或者基于字符的语言模型,而后从训练的语言模型中进行采样。
这里有一些样本,它们是从一个语言模型中采样获得的,准确来讲是基于字符的语言模型,你能够在编程练习中本身实现这样的模型。若是模型是用新闻文章训练的,它就会生成左边这样的文本,这有点像一篇不太合乎语法的新闻文本,不过听起来,这句“Concussion epidemic”,to be examined,确实有点像新闻报道。用莎士比亚的文章训练后生成了右边这篇东西,听起来很像是莎士比亚写的东西:
“The mortal moon hath her eclipse in love.
And subject of this thou art another this fold.
When besser be my love to me see sabl's.
For whose are ruse of mine eyes heaves.”
这些就是基础的RNN结构和如何去创建一个语言模型并使用它,对于训练出的语言模型进行采样。在以后的视频中,我想探讨在训练RNN时一些更加深刻的挑战以及如何适应这些挑战,特别是梯度消失问题来创建更增强大的RNN模型。下节课,咱们将谈到梯度消失而且会开始谈到GRU,也就是门控循环单元和LSTM长期记忆网络模型。
你已经了解了RNN时如何工做的了,而且知道如何应用到具体问题上,好比命名实体识别,好比语言模型,你也看到了怎么把反向传播用于RNN。其实,基本的RNN算法还有一个很大的问题,就是梯度消失的问题。这节课咱们会讨论,在下几节课咱们会讨论一些方法用来解决这个问题。
你已经知道了RNN的样子,如今咱们举个语言模型的例子,假如看到这个句子(上图编号1所示),“The cat, which already ate ……, was full.”,先后应该保持一致,由于cat是单数,因此应该用was。“The cats, which ate ……, were full.”(上图编号2所示),cats是复数,因此用were。这个例子中的句子有长期的依赖,最前面的单词对句子后面的单词有影响。可是咱们目前见到的基本的RNN模型(上图编号3所示的网络模型),不擅长捕获这种长期依赖效应,解释一下为何。
你应该还记得以前讨论的训练很深的网络,咱们讨论了梯度消失的问题。好比说一个很深很深的网络(上图编号4所示),100层,甚至更深,对这个网络从左到右作前向传播而后再反向传播。咱们知道若是这是个很深的神经网络,从输出
获得的梯度很难传播回去,很难影响靠前层的权重,很难影响前面层(编号5所示的层)的计算。
对于有一样问题的RNN,首先从左到右前向传播,而后反向传播。可是反向传播会很困难,由于一样的梯度消失的问题,后面层的输出偏差(上图编号6所示)很难影响前面层(上图编号7所示的层)的计算。这就意味着,实际上很难让一个神经网络可以意识到它要记住看到的是单数名词仍是复数名词,而后在序列后面生成依赖单复数形式的was或者were。并且在英语里面,这中间的内容(上图编号8所示)能够任意长,对吧?因此你须要长时间记住单词是单数仍是复数,这样后面的句子才能用到这些信息。也正是这个缘由,因此基本的RNN模型会有不少局部影响,意味着这个输出
(上图编号9所示)主要受
附近的值(上图编号10所示)的影响,上图编号11所示的一个数值主要与附近的输入(上图编号12所示)有关,上图编号6所示的输出,基本上很难受到序列靠前的输入(上图编号10所示)的影响,这是由于无论输出是什么,无论是对的,仍是错的,这个区域都很难反向传播到序列的前面部分,也所以网络很难调整序列前面的计算。这是基本的RNN算法的一个缺点,咱们会在下几节视频里处理这个问题。若是无论的话,RNN会不擅长处理长期依赖的问题。
尽管咱们一直在讨论梯度消失问题,可是,你应该记得咱们在讲很深的神经网络时,咱们也提到了梯度爆炸,咱们在反向传播的时候,随着层数的增多,梯度不只可能指数型的降低,也可能指数型的上升。事实上梯度消失在训练RNN时是首要的问题,尽管梯度爆炸也是会出现,可是梯度爆炸很明显,由于指数级大的梯度会让你的参数变得极其大,以致于你的网络参数崩溃。因此梯度爆炸很容易发现,由于参数会大到崩溃,你会看到不少NaN,或者不是数字的状况,这意味着你的网络计算出现了数值溢出。若是你发现了梯度爆炸的问题,一个解决方法就是用梯度修剪。梯度修剪的意思就是观察你的梯度向量,若是它大于某个阈值,缩放梯度向量,保证它不会太大,这就是经过一些最大值来修剪的方法。因此若是你遇到了梯度爆炸,若是导数值很大,或者出现了NaN,就用梯度修剪,这是相对比较鲁棒的,这是梯度爆炸的解决方法。然而梯度消失更难解决,这也是咱们下几节视频的主题。
总结一下,在前面的课程,咱们了解了训练很深的神经网络时,随着层数的增长,导数有可能指数型的降低或者指数型的增长,咱们可能会遇到梯度消失或者梯度爆炸的问题。加入一个RNN处理1,000个时间序列的数据集或者10,000个时间序列的数据集,这就是一个1,000层或者10,000层的神经网络,这样的网络就会遇到上述类型的问题。梯度爆炸基本上用梯度修剪就能够应对,但梯度消失比较棘手。咱们下节会介绍GRU,门控循环单元网络,这个网络能够有效地解决梯度消失的问题,而且可以使你的神经网络捕获更长的长期依赖,咱们去下个视频一探究竟吧。
你已经了解了基础的RNN模型的运行机制,在本节视频中你将会学习门控循环单元,它改变了RNN的隐藏层,使其能够更好地捕捉深层链接,并改善了梯度消失问题,让咱们看一看。
让我再画个图来(下图所示)解释一下GRU单元,顺便说一下,当你在看网络上的博客或者教科书或者教程之类的,这些图对于解释GRU和咱们稍后会讲的LSTM是至关流行的,我我的感受式子在图片中比较容易理解,那么即便看不懂图片也不要紧,我就画画,万一能帮得上忙就最好了。
(Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.
Cho K, Merrienboer B V, Bahdanau D, et al. On the Properties of Neural Machine Translation: Encoder-Decoder Approaches[J]. Computer Science, 2014.)
在上一个视频中你已经学了GRU(门控循环单元)。它可以让你能够在序列中学习很是深的链接。其余类型的单元也可让你作到这个,好比LSTM即长短时记忆网络,甚至比GRU更加有效,让咱们看看。
LSTM反向传播计算:
门求偏导:
这就是LSTM,咱们何时应该用GRU?何时用LSTM?这里没有统一的准则。并且即便我先讲解了GRU,在深度学习的历史上,LSTM也是更早出现的,而GRU是最近才发明出来的,它可能源于Pavia在更加复杂的LSTM模型中作出的简化。研究者们在不少不一样问题上尝试了这两种模型,看看在不一样的问题不一样的算法中哪一个模型更好,因此这不是个学术和高深的算法,我才想要把这两个模型展现给你。
GRU的优势是这是个更加简单的模型,因此更容易建立一个更大的网络,并且它只有两个门,在计算性上也运行得更快,而后它能够扩大模型的规模。
可是LSTM更增强大和灵活,由于它有三个门而不是两个。若是你想选一个使用,我认为LSTM在历史进程上是个更优先的选择,因此若是你必须选一个,我感受今天大部分的人仍是会把LSTM做为默认的选择来尝试。虽然我认为最近几年GRU得到了不少支持,并且我感受愈来愈多的团队也正在使用GRU,由于它更加简单,并且还效果还不错,它更容易适应规模更加大的问题。LSTM更增强大和灵活,由于它有三个门而不是两个。若是你想选一个使用,我认为LSTM在历史进程上是个更优先的选择,因此若是你必须选一个,我感受今天大部分的人仍是会把LSTM做为默认的选择来尝试。虽然我认为最近几年GRU得到了不少支持,并且我感受愈来愈多的团队也正在使用GRU,由于它更加简单,并且还效果还不错,它更容易适应规模更加大的问题。
因此这就是LSTM,不管是GRU仍是LSTM,你均可以用它们来构建捕获更加深层链接的神经网络。
(Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.)
如今,你已经了解了大部分RNN模型的关键的构件,还有两个方法可让你构建更好的模型,其中之一就是双向RNN模型,这个模型可让你在序列的某点处不只能够获取以前的信息,还能够获取将来的信息,咱们会在这个视频里讲解。第二个就是深层的RNN,咱们会在下个视频里见到,如今先从双向RNN开始吧。
这就是双向循环神经网络,而且这些基本单元不只仅是标准RNN单元,也能够是GRU单元或者LSTM单元。事实上,不少的NLP问题,对于大量有天然语言处理问题的文本,有LSTM单元的双向RNN模型是用的最多的。因此若是有NLP问题,而且文本句子都是完整的,首先须要标定这些句子,一个有LSTM单元的双向RNN模型,有前向和反向过程是一个不错的首选。
以上就是双向RNN的内容,这个改进的方法不只能用于基本的RNN结构,也能用于GRU和LSTM。经过这些改变,你就能够用一个用RNN或GRU或LSTM构建的模型,而且可以预测任意位置,即便在句子的中间,由于模型可以考虑整个句子的信息。这个双向RNN网络模型的缺点就是你须要完整的数据的序列,你才能预测任意位置。好比说你要构建一个语音识别系统,那么双向RNN模型须要你考虑整个语音表达,可是若是直接用这个去实现的话,你须要等待这我的说完,而后获取整个语音表达才能处理这段语音,并进一步作语音识别。对于实际的语音识别的应用一般会有更加复杂的模块,而不是仅仅用咱们见过的标准的双向RNN模型。可是对于不少天然语言处理的应用,若是你老是能够获取整个句子,这个标准的双向RNN算法实际上很高效。
好的,这就是双向RNN,下一个视频,也是这周的最后一个,咱们会讨论如何用这些概念,标准的RNN,LSTM单元,GRU单元,还有双向的版本,构建更深的网络。
目前你学到的不一样RNN的版本,每个均可以独当一面。可是要学习很是复杂的函数,一般咱们会把RNN的多个层堆叠在一块儿构建更深的模型。这节视频里咱们会学到如何构建这些更深的RNN。