关于L1和L2正则的使用

L1范数更容易产生稀疏的权重,L2范数更容易产生分散的权重,原因一般从公式角度或者几何空间角度去解释 从公式角度解释:深度学习书7.1节(202页左右)。带L1正则化的最优参数w=sign(w*) max{|w*|- a/H , 0},其中w*代表未正则化的目标函数的最优参数,H代表海森矩阵,a是正则化系数,只要a足够大,w*就会在更大区间范围内使w变为0,而带L2正则化的最优参数w=H/(H+a
相关文章
相关标签/搜索