random大坑

最近在入门强化学习,在写使用DQN学习CartPole时,出现了一个神奇的事情。 我几乎把代码改的和参考程序一模一样了,结果参考程序跑出来完全正常,而我的程序跑出来就是这个鬼样子…… 就是loss一直在降低,但是reward一直在9左右徘徊,甚至expected average reward稳步下降…… 因为是python新手入门+深度学习新手入门,所以现在只会照着别人的代码写,自己用眼睛dubu
相关文章
相关标签/搜索