【转载】David Silver公开课7——Policy Gradient

本文是David Silver强化学习公开课第七课的总结笔记。这一课主要讲了将policy看成某个参数hetaheta的函数,即将policy形式变成状态和动作的概率分布函数,在policy函数可微的情况下能够通过对参数求导来优化policy。 【转载请注明出处】chenrudan.github.io 本文是David Silver强化学习公开课第七课的总结笔记。这一课主要讲了将policy看成某
相关文章
相关标签/搜索