Actor-Critic

Actor-Critic( A 2 C   A 3 C A2C \ A3C A2C A3C) 1、首先要搞清楚什么是actor-critic算法,它是怎么来的? Actor-critic算法是一种policy based的on policy的model-free算法。和value based的DQN算法有着本质的不同。policy based算法是将policy参数化 π ( a ∣ s , θ
本站公众号
   欢迎关注本站公众号,获取更多信息