JavaShuo
栏目
标签
David silver强化学习课程第五课 模型无关的控制
时间 2020-12-20
标签
人工智能
强化学习
繁體版
原文
原文链接
第五课 模型无关的控制 回顾上节课,主要讲了Model-free情况下如何解决预测问题,通过求解某一策略下的值函数评价该策略,主要有蒙特卡洛(MC)和时间差分(TD)两种方法。本节课主要讲Model-free情况下的控制问题,也就是如何找到一个最优策略,同样的利用到了蒙特卡洛和时间差分两种方法。 本节集中解决Model-free的控制问题,由于缺乏环境信息,因此这是学习(Learning)过程而不
>>阅读原文<<
相关文章
1.
David silver强化学习课程第四课 模型无关的预测
2.
David silver强化学习课程第六课 值函数近似
3.
David silver强化学习课程第三课 动态规划
4.
David silver强化学习课程第七课 策略梯度
5.
David Silver深度强化学习第4课-免模型预测
6.
David Silver强化学习课程笔记(五)
7.
David silver强化学习课程第二课 马尔科夫决策过程
8.
David Silver深度强化学习第1课
9.
David Silver深度强化学习第1课- intro-RL
10.
David Silver强化学习课程笔记(一)
更多相关文章...
•
Lua 流程控制
-
Lua 教程
•
ASP.NET MVC - 模型
-
ASP.NET 教程
•
Kotlin学习(二)基本类型
•
适用于PHP初学者的学习线路和建议
相关标签/搜索
第五课
课程
强化学习
david
silver
强化学习(第2版)
强化学习篇
MOOC课程学习记录
Python 第18课
NoSQL教程
MySQL教程
SQLite教程
学习路线
教程
初学者
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
字节跳动21届秋招运营两轮面试经验分享
2.
Java 3 年,25K 多吗?
3.
mysql安装部署
4.
web前端开发中父链和子链方式实现通信
5.
3.1.6 spark体系之分布式计算-scala编程-scala中trait特性
6.
dataframe2
7.
ThinkFree在线
8.
在线画图
9.
devtools热部署
10.
编译和链接
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
David silver强化学习课程第四课 模型无关的预测
2.
David silver强化学习课程第六课 值函数近似
3.
David silver强化学习课程第三课 动态规划
4.
David silver强化学习课程第七课 策略梯度
5.
David Silver深度强化学习第4课-免模型预测
6.
David Silver强化学习课程笔记(五)
7.
David silver强化学习课程第二课 马尔科夫决策过程
8.
David Silver深度强化学习第1课
9.
David Silver深度强化学习第1课- intro-RL
10.
David Silver强化学习课程笔记(一)
>>更多相关文章<<