强化学习之Actor Critic

参考:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-1-actor-critic/ 一句话概括 Actor Critic 方法:结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法. Actor 基于概率选
相关文章
相关标签/搜索