元学习gradient descent as LSTM(2)--李宏毅老师课程学习笔记

我们发现meta learning中的结构与RNN比较相似,具体看下面两篇论文是讲这个的。 RNN是用同一个单元去处理很长的句子,因为每次只吃一个单词。 现在基本用LSTM,通过结构发现Ct的特殊,同时由于它改变较慢,因此LSTM能够储存较长之间之前的词。 复习一下LSTM: 这个图和上面的图进行对比,是LSTM的简化版。 如果把sita t-1 的loss用来更新zi,那么可以多样地调整学习率。
相关文章
相关标签/搜索