CS231n 2017 Spring Lecture6 Training Neural Networks Ⅰ总结

时间 2020-12-24

原文原文链接

两层的神经网络可以看到红框内经过了Relu的操作参数经过低度下降进行调整，最终收敛，那么用什么方法进行训练呢？一般用小批处理SGD（mini-batch SGD），这样的方法可以克服BGD（批处理梯度下降）的计算量巨大的缺点，也能加速SGD（Stochastic Gradient Descent）收敛，是一个比较好的这种方法，当然在深度学习的发展过程中又出现了很多其他的优化方