CS231n 2017 Spring Lecture6 Training Neural Networks Ⅰ总结

  两层的神经网络   可以看到红框内经过了Relu的操作   参数经过低度下降进行调整,最终收敛,那么用什么方法进行训练呢?   一般用小批处理SGD(mini-batch SGD),这样的方法可以克服BGD(批处理梯度下降)的计算量巨大的缺点,也能加速SGD(Stochastic Gradient Descent)收敛,是一个比较好的这种方法,当然在深度学习的发展过程中又出现了很多其他的优化方
相关文章
相关标签/搜索