李宏毅Gradient Descent(lecturte3)课堂笔记

  其中,learning rate:η    :梯度,它实际是个vector。Gradient可以考虑成Loss等高线的法线方向 learning rate要小心调节 红线的learning rate就是刚刚好,蓝线太慢了,绿线黄线太快了。可以通过画右边图来观察。 越学习越慢,不同的参数最好提供不同的learning rate。 怎么选择learning rate呢?可以采用Adagrad 实际
相关文章
相关标签/搜索