深度学习小trick收集

梯度消失/梯度爆炸的解决方案 首先,梯度消失与梯度爆炸的根本原因是基于bp的反向传播算法 且上述的反向传播错误小于1/4 总的来说就是,更新w和b的时候,更新的步长与learningrate成正比,当所处的层数越浅,每层的w的值和反向传播错误的值乘的愈多,导致w和b更新的步长收到很大影响,最终导致梯度爆炸或者梯度消失。这时候深度网络并不能比千层网络性能好。后面基层学习情况好,而浅层网络则学不到东西
相关文章
相关标签/搜索