【李宏毅-强化学习笔记】p1-p2、PPO

时间 2021-01-12

标签强化学习繁體版

原文原文链接

一、policy gradient回顾最核心的部分：　　PPO是对policy gradient 的改进版，首先回顾下policy gradient并介绍两个tips。Policy gradient的背景是：我们现在有N笔数据，用这些数据来优化agent也就是π-function。其中每一笔数据是：　　　　　　　　　　　　　　　　　τ= {s1, a1,r1, s2, a2,r2,…,sT,

>>阅读原文<<

1. 李宏毅强化学习学习笔记-policy gradient and PPO
2. 【笔记2-2】李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
3. 机器学习：李宏毅强化学习笔记（一）Proximal Policy Optimization (PPO)
4. 强化学习--李宏毅
5. 李宏毅强化学习笔记【0.强化学习导论】
6. 【完结】李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
7. 【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅
8. 李宏毅强化学习1
9. 李宏毅深度强化学习笔记（七）Sparse Reward
10. 李宏毅强化学习笔记【3.Actor-Critic】
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• 适用于PHP初学者的学习线路和建议

最新文章

1. 外部其他进程嵌入到qt FindWindow获得窗口句柄报错无法链接的外部符号 [email protected] 无法被([email protected]@[email protected]@@引用
2. UVa 11524 - InCircle
3. The Monocycle（bfs）
4. VEC-C滑窗
5. 堆排序的应用-TOPK问题
6. 实例演示ElasticSearch索引查询term,match,match_phase,query_string之间的区别
7. 数学基础知识集合
8. amazeUI 复择框问题解决
9. 背包问题理解
10. 算数平均-几何平均不等式的证明,从麦克劳林到柯西

本站公众号

欢迎关注本站公众号,获取更多信息

1. 李宏毅强化学习学习笔记-policy gradient and PPO
2. 【笔记2-2】李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
3. 机器学习：李宏毅强化学习笔记（一）Proximal Policy Optimization (PPO)
4. 强化学习--李宏毅
5. 李宏毅强化学习笔记【0.强化学习导论】
6. 【完结】李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
7. 【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅
8. 李宏毅强化学习1
9. 李宏毅深度强化学习笔记（七）Sparse Reward
10. 李宏毅强化学习笔记【3.Actor-Critic】

>>更多相关文章<<