David Silver 强化学习Lecture5:Model-Free Control

    David Silver强化学习系列博客的内容整理自David Silver 强化学习的PPT和知乎叶强强化学习专栏。 1 Introduction     第四章节的内容讲述了agent在不依赖模型的情况下如何进行预测,也就是求解在给定策略下的状态价值或行为价值函数。本章节则主要讲解在不基于模型的条件下如何通过agent的学习优化价值函数,同时改善自身行为的策略以最大化获得累积奖励的过程
相关文章
相关标签/搜索