RNN的BPTT算法中的梯度消失问题

参考资料链接:https://zhuanlan.zhihu.com/p/22338087 随时间的反向传播(BPTT) 让我们先迅速回忆一下RNN的基本公式,注意到这里在符号上稍稍做了改变(变成),这只是为了和我参考的一些资料保持一致。 同样把损失值定义为交叉熵损失,如下: 这里,表示时刻正确的词,是我们的预测。通常我们会把整个句子作为一个训练样本,所以总体错误是每一时刻的错误的加和。 我们的目标
相关文章
相关标签/搜索