深度强化学习(policy gradient) task03-1

上次提到了在深度强化中的几个概念,现在来看一看他们的关系: 环境——>状态1——>行为1——>环境——>状态2——>行为2等等 以一个游戏的强化学习过程为例: 所有状态和行为组成的序列被称为trajectory(轨迹) 某种轨迹出现的概率为 奖励R: 下面要求R的梯度 policy gradient: 迭代公式为 具体的步骤是 计算时,需要最小化 因此,在tf或torch中,求上式的梯度并乘以权重
相关文章
相关标签/搜索