深度学习入门笔记 Day9/15 与学习相关的技巧(一)

一、为什么SGD不够完美 1. 在输入参数的系数相差较为巨大的时候,比如: 的时候,由于参数  变化对于y的影响比参数  变化要小得多,那么在更新参数的时候,对于x1的更新就很不明显,虽然上式的最小值明显在 处,但是如果选择初始值 可能最终收敛到的地方是。 2. 学习率对SGD影响也很大,如果选择得过大,可能最终无法收敛;选择得不适合,可能收敛速度很慢;选择得过小,学习效率太低。 二、什么是Mom
相关文章
相关标签/搜索