DQN——PPO流程总结

时间 2021-01-07

原文原文链接

本文主要根究莫凡大大的RL教程总结下Nature DQN, Double DQN, Prioritized Replay DQN, Dueling DQN, Policy Gradient, Actor-Critic, DDPG, PPO 算法的流程。 DQN 1、将环境信息s输入到eval网络，输出为action的Q值，选择最大Q值对应的action，或者随机生成一个action(所谓的探索