强化学习点滴

时间 2021-01-18

原文原文链接

强化学习 Agent learns to take actions maximizing expected reward or expected cumulative reward per episode. 基于模型的方法无模型的方法首先得说一下这里的模型指的是什么。 model就是用来预测环境接下来会干什么，即在这一状态的情况下执行某一动作会达到什么样的状态，这一个动作会得到什么reward