强化学习--DeepQnetwork 的一些改进

        Double DQN   算Q值 与选Q值是分开的,2个网络。         Multi-step         Dueling DQN       如果更新了,即使有的action没有被采样到,也会更新Q值     Prioritized Reply  Noisy Net Epsilon Greedy 存在的问题是在一局游戏中, 即使是同一个agent也有可能坐车不不同的选择
相关文章
相关标签/搜索