【深度强化学习】5. Proximal Policy Optimization

时间 2021-07-13

标签深度强化学习入门人工智能深度学习强化学习算法繁體版

原文原文链接

【DataWhale导读】李宏毅老师的深度强化学习之PPO（近端策略优化）部分内容。文章目录 1. 概念/关键词 2. from on-policy to off-policy 3. PPO/TRPO 3.1 PPO-Penalty 3.2 PPO-Clip 4. 参考 1. 概念/关键词名称解释 On-Policy 学习的agent和与环境互动的agent是同一个（自己打王者） Off-P

>>阅读原文<<

相关文章

相关标签/搜索

强化学习篇

深度学习 CNN

Python深度学习

Python 深度学习

深度学习篇

Hibernate教程

Thymeleaf 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<