深度强化学习（policy gradient） task03-1

时间 2021-03-21

原文原文链接

上次提到了在深度强化中的几个概念，现在来看一看他们的关系：环境——>状态1——>行为1——>环境——>状态2——>行为2等等以一个游戏的强化学习过程为例：所有状态和行为组成的序列被称为trajectory（轨迹）某种轨迹出现的概率为奖励R：下面要求R的梯度 policy gradient：迭代公式为具体的步骤是计算时，需要最小化因此，在tf或torch中，求上式的梯度并乘以权重

>>阅读原文<<