训练过程--学习率与权重衰减

时间 2020-12-20

原文原文链接

学习率主要是两个方面：学习率的初始化和学习率的更新梯度更新的步长就是学习率学习率初始化 1）ReLu的线性不饱和激活端着相对于Tanh的双饱和端（经验规则0.1），肯定要降量级。 2）b的学习率一般为w的两倍；例如Caffe和Alex给的Model基础都是0.001(W)/0.002(b)。至于为什么Bias的学习率是2倍，猜测是更快抑制Wx加权结果，加速学习。