DQN——PPO流程总结

本文主要根究莫凡大大的RL教程总结下Nature DQN, Double DQN, Prioritized Replay DQN, Dueling DQN, Policy Gradient, Actor-Critic, DDPG, PPO 算法的流程。 DQN 1、将环境信息s输入到eval网络, 输出为action的Q值,选择最大Q值对应的action, 或者随机生成一个action(所谓的探索
相关文章
相关标签/搜索