chapter-14-强化学习

深度Q学习 以上是一个强化学习的标准模型,其逻辑为环境(Environment)给出状态(State),智能体(agent)按照状态做出动作(Action),环境根据动作给予反馈(Reward),并更新状态。持续这一流程,直到外界干预或达到目标。 我们可以用马尔可夫决策(Markov property)来描述这个模型: 在正式开始前,为了能更好地解决问提,我们先定义以下几个函数: 有了bellma
相关文章
相关标签/搜索