强化学习点滴

强化学习 Agent learns to take actions maximizing expected reward or expected cumulative reward per episode. 基于模型的方法 无模型的方法 首先得说一下这里的模型指的是什么。 model就是用来预测环境接下来会干什么,即在这一状态的情况下执行某一动作会达到什么样的状态,这一个动作会得到什么reward
相关文章
相关标签/搜索