2020李宏毅学习笔记——65 RL Advanced Version 1.Policy Gradient

Policy Gradient 术语和基本思想 基本组成: actor (即policy gradient要学习的对象, 是我们可以控制的部分) 环境 environment (给定的,无法控制) 回报函数 reward function (无法控制) Policy of actor π: 如下图所示,Policy 可以理解为一个包含参数 θ \thetaθ的神经网络,该网络将观察到的变量作为模型
相关文章
相关标签/搜索