时序差分算法(Temporal-Difference Learning)

时间 2019-12-07

标签时序差分算法 temporal difference learning 繁體版

原文原文链接

概述时序差分算法是一种无模型的强化学习算法。它继承了动态规划(Dynamic Programming)和蒙特卡罗方法(Monte Carlo Methods)的优势，从而对状态值(state value)和策略(optimal policy)进行预测。从本质上来讲，时序差分算法和动态规划同样，是一种bootstrapping的算法。同时，也和蒙特卡罗方法同样，是一种无模型的强化学习算法，其原理也

>>阅读原文<<

1. 时序差分学习(Temporal-Difference Learning)
2. 强化学习系列（六）：时间差分算法（Temporal-Difference Learning)
3. 《Reinforcement Learning》读书笔记 6：时序差分学习（TD-Learning）
4. 强化学习（七）时序差分离线控制算法Q-Learning
5. 时序差分学习
6. 差分算法
7. RL（六）时序差分法（TD）
8. 强化学习-时序差分算法（TD）和SARAS法
9. 强化学习（六）时序差分在线控制算法SARSA
10. SARSA时序差分学习方法
更多相关文章...
• XML DOM 浏览器差异 - XML DOM 教程
• PHP 5 时区 - PHP参考手册
• 算法总结-归并排序
• 算法总结-二分查找法

最新文章

1. css 让chrome支持小于12px的文字
2. 集合的一点小总结
3. ejb
4. Selenium WebDriver API
5. 人工智能基础，我的看法
6. Non-local Neural及Self-attention
7. Hbuilder 打开iOS真机调试操作
8. improved open set domain adaptation with backpropagation 学习笔记
9. Chrome插件 GitHub-Chart Commits3D直方图视图
10. CISCO ASAv 9.15 - 体验思科上一代防火墙

本站公众号

欢迎关注本站公众号,获取更多信息

1. 时序差分学习(Temporal-Difference Learning)
2. 强化学习系列（六）：时间差分算法（Temporal-Difference Learning)
3. 《Reinforcement Learning》读书笔记 6：时序差分学习（TD-Learning）
4. 强化学习（七）时序差分离线控制算法Q-Learning
5. 时序差分学习
6. 差分算法
7. RL（六）时序差分法（TD）
8. 强化学习-时序差分算法（TD）和SARAS法
9. 强化学习（六）时序差分在线控制算法SARSA
10. SARSA时序差分学习方法

>>更多相关文章<<