JavaShuo
栏目
标签
强化学习导论 | 第七章 n步时序差分算法
时间 2020-12-30
标签
学习总结
强化学习
栏目
应用数学
繁體版
原文
原文链接
前面讲到了MC(蒙特卡洛方法)和TD(0)算法。MC方式是根据采样到的经验轨迹实际得到的奖励来更新轨迹中出现的状态的价值,即在每个轨迹结束之后更新。TD(0)方法中某个状态的价值是根据从当前状态走一步的即时奖励和后续状态的估计价值相加得来的,即在执行一个动作之后就更新价值。 那么,能否将MC和TD(0)结合呢?基于这个想法,就产生了n步时序差分算法。即在某个状态的价值等于在当前状态下走n步得到的奖
>>阅读原文<<
相关文章
1.
强化学习导论 | 第六章 时序差分方法
2.
强化学习导论 第六章 瞬时时间差分法
3.
强化学习导论 第二章
4.
强化学习(七):n步自举法(多步引导法)
5.
强化学习-时序差分算法(TD)和SARAS法
6.
《算法导论》学习总结 — 6.第七章 快速排序
7.
强化学习(六)时序差分在线控制算法SARSA
8.
强化学习(RLAI)读书笔记第七章n步自举(n-step Bootstrapping)
9.
强化学习(七)时序差分离线控制算法Q-Learning
10.
【强化学习入门】强化学习导论 - 第一章:介绍
更多相关文章...
•
您已经学习了 XML Schema,下一步学习什么呢?
-
XML Schema 教程
•
我们已经学习了 SQL,下一步学习什么呢?
-
SQL 教程
•
算法总结-归并排序
•
算法总结-二分查找法
相关标签/搜索
算法导论
0.强化学习导论
强化学习
算法学习
第七章:MapReduce
强化学习(第2版)
强化学习篇
算法概论
时差
导论
应用数学
PHP教程
Hibernate教程
PHP 7 新特性
算法
学习路线
计算
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
添加voicebox
2.
Java 8u40通过Ask广告软件困扰Mac用户
3.
数字图像处理入门[1/2](从几何变换到图像形态学分析)
4.
如何调整MathType公式的字体大小
5.
mAP_Roi
6.
GCC编译器安装(windows环境)
7.
LightGBM参数及分布式
8.
安装lightgbm以及安装xgboost
9.
开源matpower安装过程
10.
从60%的BI和数据仓库项目失败,看出从业者那些不堪的乱象
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
强化学习导论 | 第六章 时序差分方法
2.
强化学习导论 第六章 瞬时时间差分法
3.
强化学习导论 第二章
4.
强化学习(七):n步自举法(多步引导法)
5.
强化学习-时序差分算法(TD)和SARAS法
6.
《算法导论》学习总结 — 6.第七章 快速排序
7.
强化学习(六)时序差分在线控制算法SARSA
8.
强化学习(RLAI)读书笔记第七章n步自举(n-step Bootstrapping)
9.
强化学习(七)时序差分离线控制算法Q-Learning
10.
【强化学习入门】强化学习导论 - 第一章:介绍
>>更多相关文章<<