回归|深度学习(李宏毅)笔记(一)

1. 偏差和方差 欠拟合的loss主要来自偏差 过拟合的loss主要来自方差 应对大的偏差的方法: 增加更多特征作为输入 使用更复杂的模型 应对大的方差的方法: 更多数据 正则化 k折交叉验证 2. 梯度下降 Adagrad 二次微分大的点梯度虽然大但是可能会比梯度小的点离极值点更近,因此学习率需要考虑二次微分的影响,除以所有梯度的均方根是为了近似表示二次微分。 RMSProp 类比Adagrad
相关文章
相关标签/搜索