David silver强化学习课程第五课 模型无关的控制

第五课 模型无关的控制 回顾上节课,主要讲了Model-free情况下如何解决预测问题,通过求解某一策略下的值函数评价该策略,主要有蒙特卡洛(MC)和时间差分(TD)两种方法。本节课主要讲Model-free情况下的控制问题,也就是如何找到一个最优策略,同样的利用到了蒙特卡洛和时间差分两种方法。 本节集中解决Model-free的控制问题,由于缺乏环境信息,因此这是学习(Learning)过程而不
相关文章
相关标签/搜索