David Silver强化学习公开课(九):探索与利用

本讲系统地介绍了在强化学习领域如何有效地进行探索,给出了几类探索算法,经过引入后悔值,借助多臂赌博机这一与状态无关的示例从理论上论述了相关算法的有效性,随后很简单地介绍了将其扩展至与状态相关学习问题和这些算法如何具体应用于解决MDP问题。算法 本讲的一些算法在以前的讲解中或多或少有所涉及,本章偏重于从一些统计理论角度出发给出一些探索方法的有效性证实。安全   简介 Introduction 探索和
相关文章
相关标签/搜索