梯度下降公式理解(为什么使用cost function的导数?)

在gradient descent 梯度下降公式中,一般的表达都是如下: 之前没有认真思考这个公式为什么这样定义?只理解到学习率如何影响到最小值的获得。 但是学习率 α 后为什么用 θ1处的求导呢?在吴恩达的课程论坛中也看到类似的提问: 论坛链接:为什么用这个公式 有个回答很清楚,我直接贴过来了。可以看出,其实可以不必使用cost function的导数。 但是用cost fucntion求导肯定
相关文章
相关标签/搜索