chapter-14-强化学习

时间 2021-01-19

原文原文链接

深度Q学习以上是一个强化学习的标准模型，其逻辑为环境(Environment)给出状态(State)，智能体(agent)按照状态做出动作(Action)，环境根据动作给予反馈(Reward)，并更新状态。持续这一流程，直到外界干预或达到目标。我们可以用马尔可夫决策(Markov property)来描述这个模型：在正式开始前，为了能更好地解决问提，我们先定义以下几个函数：有了bellma