CNN的损失函数在训练时一定会越变越小吗

听了李宏毅老师的深度学习的课程里面关于梯度下降算法的理解,才开始去真正理解一个网络的损失函数及优化过程,思考可能不够全面,希望补充交流。 梯度下降算法用于神经网络参数的更新,使得网络能够拟合出合适的参数用于解决一类具体的问题,比如图像分类或者是图像分割等。 传统的梯度下降算法:   其中,θo是自变量参数,即下山位置坐标,η是学习因子,即下山每次前进的一小步(步进长度),θ是更新后的θo,即下山移
相关文章
相关标签/搜索