强化学习系列（六）：时间差分算法（Temporal-Difference Learning)

时间 2021-01-12

标签强化学习 Q学习繁體版

原文原文链接

一、前言在强化学习系列（五）：蒙特卡罗方法（Monte Carlo)中，我们提到了求解环境模型未知MDP的方法——Monte Carlo，但该方法是每个episode 更新一次（episode-by-episode)。本章介绍一种单步更新的求解环境模型未知MDP的方法——Temporal-Difference Learning(TD)。TD（0）算法结合了DP 和Monte Carlo算法的优点

>>阅读原文<<

1. 强化学习导论第六章瞬时时间差分法
2. 强化学习（五）----- 时间差分学习(Q learning, Sarsa learning)
3. 【强化学习】时间差分法(TD)
4. Reinforcement Learning强化学习系列之四：时序差分TD
5. 强化学习（六）时序差分在线控制算法SARSA
6. 增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)
7. 加强学习（五）----- 时间差分学习(Q learning, Sarsa learning)
8. 强化学习导论 | 第六章时序差分方法
9. 强化学习之Sarsa （时间差分学习）
10. 强化学习之无模型方法二：时间差分
更多相关文章...
• SQLite 日期 & 时间 - SQLite教程
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• Kotlin学习（一）基本语法
• 算法总结-二分查找法

最新文章

1. Excel教程：排序-筛选-切片-插入表格
2. ZigBee ProfileID，DeviceID，ClusterID
3. 二维码背后不能不说的秘密Part1~
4. 基于迅为i.MX6平台 | 智能家居远程监控系统
5. 【入门篇】ESP8266直连智能音箱（天猫精灵）控制智能灯
6. MongoDB安装问题
7. 【建议收藏】22个适合程序员多逛逛的网站
8. 【建议收藏】10个适合程序员逛的在线社区
9. Attention-Based SeriesNet论文读后感
10. Flutter中ListView复用原理探索

本站公众号

欢迎关注本站公众号,获取更多信息

1. 强化学习导论第六章瞬时时间差分法
2. 强化学习（五）----- 时间差分学习(Q learning, Sarsa learning)
3. 【强化学习】时间差分法(TD)
4. Reinforcement Learning强化学习系列之四：时序差分TD
5. 强化学习（六）时序差分在线控制算法SARSA
6. 增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)
7. 加强学习（五）----- 时间差分学习(Q learning, Sarsa learning)
8. 强化学习导论 | 第六章时序差分方法
9. 强化学习之Sarsa （时间差分学习）
10. 强化学习之无模型方法二：时间差分

>>更多相关文章<<