weight-decay与L2正则化差异

最近在看其他量化训练的一些代码、论文等,不经意间注意到有人建议要关注weight decay值的设置,建议设置为1e-4, 不要设置为1e-5这么小,当然,这个值最好还是在当下的训练任务上调一调。 因为weight-decay 可以使参数尽可能地小,尽可能地紧凑,那这样权重的数值就不太可能出现若干个极端数值(偏离权重均值过大或过小)导致数值区间过大,这样求得的scale=(b-a)/255 会偏大
相关文章
相关标签/搜索