【RL】Vanilla Policy Gradient(VPG)

policy gradient的基本思想,是把总的奖励表示为策略的函数,然后对这个函数做优化。在这一章中,我们将详细地讲解这个函数具体的形式是怎么样的、如何求出策略梯度,理解policy gradient这个算法的基本框架。 关于MDP中动作与状态是否是连续变量,一共有四种不同的组合。其中,状态是有限分类变量的情况是不适合采用神经网络的,所以在这里不予讨论。在本章中,主要要考虑的情况是状态 s s
相关文章
相关标签/搜索