David silver强化学习课程第五课模型无关的控制

时间 2020-12-20

标签人工智能强化学习繁體版

原文原文链接

第五课模型无关的控制回顾上节课，主要讲了Model-free情况下如何解决预测问题，通过求解某一策略下的值函数评价该策略，主要有蒙特卡洛(MC)和时间差分(TD)两种方法。本节课主要讲Model-free情况下的控制问题，也就是如何找到一个最优策略，同样的利用到了蒙特卡洛和时间差分两种方法。本节集中解决Model-free的控制问题，由于缺乏环境信息，因此这是学习(Learning)过程而不

>>阅读原文<<

David silver强化学习课程第五课 模型无关的控制

David silver强化学习课程第五课模型无关的控制