强化学习系列（九）：On-policy Prediction with Approximation

时间 2021-01-08

标签强化学习繁體版

原文原文链接

一、前言针对 on-policy prediction 问题，用function approximate 估计 state-value function的创新在于：value function 不再是表格形式，而是权重参数为w的数学表达式，即 v̂ (s,w)≈vπ(s) v ^ ( s , w ) ≈ v π ( s ) 。其中 v̂ v ^ 可以是state的线性函数，也可以是一个多层人工

>>阅读原文<<

1. 强化学习系列（十）：On-policy Control with Approximation
2. 强化学习（RLAI）读书笔记第九章On-policy Prediction with Approximation
3. 强化学习系列（十一）：Off-policy Methods with Approximation
4. Chapter 9 On-policy Prediction with Approximation
5. 强化学习-An introduction之 On-policy Prediction with Function Approximation 个人笔记
6. 《reinforcement learning：an introduction》第九章《On-policy Prediction with Approximation》总结
7. 强化学习系列（十二）：Eligibility Traces
8. 【强化学习】First-visit MC prediction
9. David Silver 强化学习Lecture4：Model-Free Prediction
10. 深度强化学习系列之(1): 强化学习概述
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• 适用于PHP初学者的学习线路和建议

最新文章

1. 外部其他进程嵌入到qt FindWindow获得窗口句柄报错无法链接的外部符号 [email protected] 无法被([email protected]@[email protected]@@引用
2. UVa 11524 - InCircle
3. The Monocycle（bfs）
4. VEC-C滑窗
5. 堆排序的应用-TOPK问题
6. 实例演示ElasticSearch索引查询term,match,match_phase,query_string之间的区别
7. 数学基础知识集合
8. amazeUI 复择框问题解决
9. 背包问题理解
10. 算数平均-几何平均不等式的证明,从麦克劳林到柯西

本站公众号

欢迎关注本站公众号,获取更多信息

1. 强化学习系列（十）：On-policy Control with Approximation
2. 强化学习（RLAI）读书笔记第九章On-policy Prediction with Approximation
3. 强化学习系列（十一）：Off-policy Methods with Approximation
4. Chapter 9 On-policy Prediction with Approximation
5. 强化学习-An introduction之 On-policy Prediction with Function Approximation 个人笔记
6. 《reinforcement learning：an introduction》第九章《On-policy Prediction with Approximation》总结
7. 强化学习系列（十二）：Eligibility Traces
8. 【强化学习】First-visit MC prediction
9. David Silver 强化学习Lecture4：Model-Free Prediction
10. 深度强化学习系列之(1): 强化学习概述

>>更多相关文章<<