斯坦福CS224n NLP课程【十一】——GRU及NMT的其他议题

GRU RNN: 直观上RNN是 1.管理过去对未来造成的影响2.x_t时刻如何影响到了x_t+n的时刻 我们能做的就是获取隐藏的状态用矩阵去乘,增加一些东西去处理输入之后就进入循环 但是这样下去就导致梯度消失 但是你不能解释真正发生了什么 不能看到t和t+n在数据上的联系 也可能是设置参数导致梯度的消失  可能会导致梯度消失或者梯度爆炸 这些都是朴素 transition function 导致
相关文章
相关标签/搜索