训练过程--学习率与权重衰减

学习率   主要是两个方面:学习率的初始化和学习率的更新   梯度更新的步长就是学习率 学习率初始化   1)ReLu的线性不饱和激活端着相对于Tanh的双饱和端(经验规则0.1),肯定要降量级。   2)b的学习率一般为w的两倍;   例如Caffe和Alex给的Model基础都是0.001(W)/0.002(b)。   至于为什么Bias的学习率是2倍,猜测是更快抑制Wx加权结果,加速学习。
相关文章
相关标签/搜索