深度学习中的优化

深度学习的优化,基本算法有: 1. 随机梯度下降 2. 动量 其实就是综合历史累计的梯度和当前梯度 3. Nesterov 动量 梯度值不是来自于当前梯度,而是来自于由历史累计梯度得到的预测位置的梯度 由于学习率是难以设置的超参,于是有如下自适应学习率算法: 1. AdaGrad 当前学习率由初始学习率除以历史梯度的累计平方和开根号得到 2. RMSProp 和AdaGrad相比,RMSProp提
相关文章
相关标签/搜索