基于policy的强化学习

基于policy的强化学习 一、actor的作用和设计 和以往的机器学习手段类似,强化学习的目的是为了学习一个“function”,这个“function”描述了agent对环境的观测(observation)和他采取的action之间的关系。即:action=f(observation),具体寻找这个“function”的步骤主要分为三部: 1.定义这个抽象的actor ​ 比如我们可以使用神经
相关文章
相关标签/搜索