4.蒙特卡洛（Monte-Carlo, MC）+时序差分（Temporal Difference, TD）

时间 2020-12-30

标签深度强化学习强化学习繁體版

原文原文链接

目录深度强化学习目录简介之前讲的PG算法和PPO算法，都是Policy-based的方法，接下来我们要讲Value-based的方法。之前说过了，P-B方法和V-B方法的区别在于前者训练的是策略本身（actor），而后者训练的是一种评判标准（critic）。critic能根据你输入的状态/动作，凭借策略 π \pi π来输出对应的值函数。值函数有两种，一种是V（状态-值函数），一种是Q（状态

>>阅读原文<<

1. 时序差分学习(Temporal-Difference Learning)
2. 时序差分算法(Temporal-Difference Learning)
3. Temporal Difference - 时序差分学习
4. 强化学习(四)——蒙特卡洛和时序差分
5. 强化学习实例9：时序差分法（Temporal Difference）
6. 强化学习(四)：蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)
7. [强化学习-4] 蒙特卡洛和时序差分法-控制
8. [强化学习-3] 蒙特卡洛和时序差分法-预测
9. mcmc(Markov Chain MonteCarlo)马尔科夫链蒙特卡洛方法
10. 强化学习 model free 蒙特卡洛增量与 TD(0)
更多相关文章...
• ionic 卡片 - ionic 教程
• C# 特性（Attribute） - C#教程
• 算法总结-归并排序
• JDK13 GA发布：5大特性解读

最新文章

1. 外部其他进程嵌入到qt FindWindow获得窗口句柄报错无法链接的外部符号 [email protected] 无法被([email protected]@[email protected]@@引用
2. UVa 11524 - InCircle
3. The Monocycle（bfs）
4. VEC-C滑窗
5. 堆排序的应用-TOPK问题
6. 实例演示ElasticSearch索引查询term,match,match_phase,query_string之间的区别
7. 数学基础知识集合
8. amazeUI 复择框问题解决
9. 背包问题理解
10. 算数平均-几何平均不等式的证明,从麦克劳林到柯西

本站公众号

欢迎关注本站公众号,获取更多信息

1. 时序差分学习(Temporal-Difference Learning)
2. 时序差分算法(Temporal-Difference Learning)
3. Temporal Difference - 时序差分学习
4. 强化学习(四)——蒙特卡洛和时序差分
5. 强化学习实例9：时序差分法（Temporal Difference）
6. 强化学习(四)：蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)
7. [强化学习-4] 蒙特卡洛和时序差分法-控制
8. [强化学习-3] 蒙特卡洛和时序差分法-预测
9. mcmc(Markov Chain MonteCarlo)马尔科夫链蒙特卡洛方法
10. 强化学习 model free 蒙特卡洛增量与 TD(0)

>>更多相关文章<<