cs231阅读笔记(2)—— 优化方法、正则化、迁移学习、软硬件

文章目录 优化方法 正则化(防止过拟合) transfer learning 迁移学习 硬件&软件 优化方法 随机梯度下降SGD 随机梯度下降(SGD, stochastic gradient descent):名字中已经体现了核心思想,随机选取一个店做梯度下降,而不是遍历所有样本后进行参数迭代。因为梯度下降法的代价函数计算需要遍历所有样本,而且是每次迭代都要遍历,直至达到局部最优解,在样本量庞大
相关文章
相关标签/搜索