weight decay的作用和实现

weight decay(权值衰减)的目的既不是提高精确度也不是提高收敛速度,可以将它看做是一种正则化,其最终目的是为了防止过拟合。在进行梯度下降时,使用一个 λ \lambda λ值(取值介于0到1之间)乘以当前计算的每一个weight。 momentum是梯度下降中一种常用的加速技术,用来跳过局部最优 如下图,0.99就是权重衰减系数, η \eta η为学习率
相关文章
相关标签/搜索