David Silver 强化学习Lecture5：Model-Free Control

时间 2021-01-12

原文原文链接

David Silver强化学习系列博客的内容整理自David Silver 强化学习的PPT和知乎叶强强化学习专栏。 1 Introduction 第四章节的内容讲述了agent在不依赖模型的情况下如何进行预测，也就是求解在给定策略下的状态价值或行为价值函数。本章节则主要讲解在不基于模型的条件下如何通过agent的学习优化价值函数，同时改善自身行为的策略以最大化获得累积奖励的过程