Keras中poly学习策略的实现

前言:              在各种论文中,我见到过最多的优化器就是SGD,虽然Adam,Nadam很潮,优点很多,但是我也不知道为啥,那些很优秀的论文总是喜欢用SGD,或许是因为SGD的学习率和和decay可‘手动’调节的缘故吧,SGD的学习率衰减策略有很多,接下来就讲解一个各个衰减策略,以及poly衰减策略的实现,另一方面是网上基本上是没有Keras上实现poly的代码,经过我一个下午的摸
相关文章
相关标签/搜索