4.gradient descent

Gradient Descent 注意是列向量 做gradient descent的时候最好把右边的图画出来,可以调整learning rate 另外一种,最简单的就是Adagrad 假设有一个人平时很凶恶,而今天对我温柔了,就会觉得他特别温柔 除了一次微分,还要除以二次微分,才能真正衡量和最低点的距离,这和adgrad的联系在哪里呢? 天下武功唯快不破
相关文章
相关标签/搜索