强化学习4

1 keyword A2C: Advantage Actor-Critic的缩写,一种Actor-Critic方法。 A3C: Asynchronous(异步的)Advantage Actor-Critic的缩写,一种改进的Actor-Critic方法,通过异步的操作,进行RL模型训练的加速。 Pathwise Derivative Policy Gradient: 其为使用 Q-learning
相关文章
相关标签/搜索