Actr-Critc

时间 2021-07-13

原文原文链接

一、介绍 Actor-Critic 算法有两部分组成：actor 和 critic。其中 action 就是Policy Gradient 算法，critic 是Q-learning。所以实际上 actor-critic算法是Q-learning算法和policy gradient算法的结合。 Actor Critic 算法能在有限维的输入和有限维的输出中起到比较好的效果。 Actor 角色起到的