机器学习:李宏毅强化学习笔记(一)Proximal Policy Optimization (PPO)

http://www.javashuo.com/article/p-zdrtqfuj-ec.html Policy Gradient 术语和基本思想 基本组成: actor (即policy gradient要学习的对象, 是我们可以控制的部分) 环境 environment (给定的,无法控制) 回报函数 reward function (无法控制) Policy of actor π\piπ:
相关文章
相关标签/搜索