《deep learning》学习笔记（8）——深度模型中的优化

时间 2020-12-24

原文原文链接

https://blog.csdn.net/u011239443/article/details/80046684 机器学习中的算法涉及诸多的优化问题，典型的就是利用梯度下降法(gradient descent)求使损失函数 J(theta) 下降的模型参数 theta 。在深度学习，尤其是深度神经网络的训练和预测中，大的模型往往要花上数天甚至是数月的训练时间，因此虽然模型的优化费事费力，仍然是一