2020李宏毅学习笔记——65 RL Advanced Version 1.Policy Gradient

时间 2021-01-02

原文原文链接

Policy Gradient 术语和基本思想基本组成: actor (即policy gradient要学习的对象, 是我们可以控制的部分) 环境 environment (给定的，无法控制) 回报函数 reward function (无法控制) Policy of actor π: 如下图所示，Policy 可以理解为一个包含参数 θ \thetaθ的神经网络，该网络将观察到的变量作为模型