Actr-Critc

一、介绍 Actor-Critic 算法有两部分组成:actor 和 critic。其中 action 就是Policy Gradient 算法,critic 是Q-learning。所以实际上 actor-critic算法是Q-learning算法和policy gradient算法的结合。 Actor Critic 算法能在有限维的输入和有限维的输出中起到比较好的效果。 Actor 角色起到的
本站公众号
   欢迎关注本站公众号,获取更多信息