【转载】David Silver公开课7——Policy Gradient

时间 2020-12-29

原文原文链接

本文是David Silver强化学习公开课第七课的总结笔记。这一课主要讲了将policy看成某个参数hetaheta的函数，即将policy形式变成状态和动作的概率分布函数，在policy函数可微的情况下能够通过对参数求导来优化policy。【转载请注明出处】chenrudan.github.io 本文是David Silver强化学习公开课第七课的总结笔记。这一课主要讲了将policy看成某