adagrad ,RMSProp Momentum

adagrad: 对于每一个 wti w i t ,都由前t-1对 wi w i 的梯度和的平方加上本次对 wi w i 梯度的平方再开根号。用这个值去除η。 缺点,随着update的次数增多,learning rate会变得特别小,最终导致提前结束训练。 δ是个小常数,通常设为10^-7。这个是防止右值太小的话稳定学习率。 RMSProp: 对于α我们自己定义,0到1之间,越小也就越代表我们越相
相关文章
相关标签/搜索