optimize-method

文章目录 Gradient Descent Adaptive learning rate Adagrad SGD Feature Scale math theory Gradient Descent Adaptive learning rate 1、开始时,与最优解差距较大,可以使用加大的lr 2、在几次迭代之后,已经与最优解很接近了,这是可以减小lr 如1/t的衰减,lr(t)=lr/squre
本站公众号
   欢迎关注本站公众号,获取更多信息