[Reinforcement Learning] Policy Gradient Methods

[Reinforcement Learning] Policy Gradient Methods ​ 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略进行控制,比如 ϵ-greedy。 ​ 那么我们简单回顾下 RL 的学习目标:通过 agent 与环境进行交互,获取累计回报最大化。既然我们最终要学习如何与环境交互的策略,那么我们可以直接学习策略吗,而之前先近似价值函数,
相关文章
相关标签/搜索