RNN激活函数、Encoder-Decoder、Seq2Seq、Attention

  RNN中为何使用使用tanh激活,不用sigmoid、Relu   Sigmoid函数的导数范围是(0,0.25], Tanh函数的导数是(0,1]。网络 因为RNN中会执行不少累乘,小于1的小数累乘会致使梯度愈来愈接近于0,出现梯度消失现象。函数 Tanh与Sigmoid相比,梯度更大,收敛速度更快而且出现梯度消失的状况要优于Sigmoid。优化 另外一点是Sigmoid的输出均大于0,不是
相关文章
相关标签/搜索