Keras中poly学习策略的实现

时间 2021-01-02

原文原文链接

前言：在各种论文中，我见到过最多的优化器就是SGD，虽然Adam，Nadam很潮，优点很多，但是我也不知道为啥，那些很优秀的论文总是喜欢用SGD，或许是因为SGD的学习率和和decay可‘手动’调节的缘故吧，SGD的学习率衰减策略有很多，接下来就讲解一个各个衰减策略，以及poly衰减策略的实现，另一方面是网上基本上是没有Keras上实现poly的代码，经过我一个下午的摸