DRL(三)——Policy Gradient

这个策略梯度相关的知识我在 David Silver 的强化学习课程里学习过了已经,再看一遍这个伯克利的,好像还挺重要,marshal学长说的。 推导过程 这个过程也大致看过 首先是使用了一个log函数的性质,见上图,然后就可以转化的简单一点 然后就可以进行下面这样 然后,如果跟maximum likelihood 相比较,就会发现这个策略梯度的变化的值,相比起来每一项都多乘了获得的reward,
相关文章
相关标签/搜索