weight-decay与L2正则化差异

时间 2020-12-20

原文原文链接

最近在看其他量化训练的一些代码、论文等，不经意间注意到有人建议要关注weight decay值的设置，建议设置为1e-4，不要设置为1e-5这么小，当然，这个值最好还是在当下的训练任务上调一调。因为weight-decay 可以使参数尽可能地小，尽可能地紧凑，那这样权重的数值就不太可能出现若干个极端数值（偏离权重均值过大或过小）导致数值区间过大，这样求得的scale=(b-a)/255 会偏大

>>阅读原文<<

1. L2 正则化
2. L1与L2正则化
3. L1 与 L2 正则化
4. L1 L2 正则化
5. L1、L2正则化
6. L1 L2正则化
7. L1，L2正则化
8. L1正则化和L2正则化
9. 正则化(1) L1和L2正则化
10. 特征选择L1正则化与过拟合L2正则化。
更多相关文章...
• XML DOM 浏览器差异 - XML DOM 教程
• Scala 正则表达式 - Scala教程
• IntelliJ IDEA代码格式化设置
• Composer 安装与使用