【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

时间 2021-01-02

标签深度强化学习繁體版

原文原文链接

所谓PPO（ProximalPolicyOptimization），就是在策略梯度的基础上，使其可以具有Off-Policy的学习能力，同时保证动作执行者和学习者之间差距不要太大，稳扎稳打。目录 1.Policy Gradient 2.PPO(ProximalPolicyOptimization) 参考： 1.Policy Gradient 增加一个衰减discount 2.PPO(Prox

>>阅读原文<<

1. 李宏毅机器学习笔记---Optimization
2. 2020李宏毅学习笔记——66 RL Advanced Version 2.Proximal Policy Optimization
3. 【笔记2-2】李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
4. 机器学习：李宏毅强化学习笔记（一）Proximal Policy Optimization (PPO)
5. 【李宏毅2020 ML/DL】P110-111 Policy Gradient & Proximal Policy Optimization
6. 【完结】李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
7. 李宏毅强化学习学习笔记-policy gradient and PPO
8. 2020李宏毅学习笔记——5.Optimization for Deep Learning
9. 2020李宏毅学习笔记——65 RL Advanced Version 1.Policy Gradient
10. 李宏毅机器学习笔记（1）
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• 适用于PHP初学者的学习线路和建议

最新文章

1. FM理论与实践
2. Google开发者大会，你想知道的都在这里
3. IRIG-B码对时理解
4. 干货：嵌入式系统设计开发大全！（万字总结）
5. 从域名到网站—虚机篇
6. php学习5
7. 关于ANR线程阻塞那些坑
8. android studio databinding和include使用控件id获取报错不影响项目正常运行
9. 我女朋友都会的安卓逆向（四动态调试smali）
10. io存取速度

本站公众号

欢迎关注本站公众号,获取更多信息

1. 李宏毅机器学习笔记---Optimization
2. 2020李宏毅学习笔记——66 RL Advanced Version 2.Proximal Policy Optimization
3. 【笔记2-2】李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
4. 机器学习：李宏毅强化学习笔记（一）Proximal Policy Optimization (PPO)
5. 【李宏毅2020 ML/DL】P110-111 Policy Gradient & Proximal Policy Optimization
6. 【完结】李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
7. 李宏毅强化学习学习笔记-policy gradient and PPO
8. 2020李宏毅学习笔记——5.Optimization for Deep Learning
9. 2020李宏毅学习笔记——65 RL Advanced Version 1.Policy Gradient
10. 李宏毅机器学习笔记（1）

>>更多相关文章<<