David silver强化学习课程第七课 策略梯度

第七课 策略梯度 快开学了比较懒,这两天督促一下自己把后面的笔记都整理一下。。。 强化学习方法分为两种:基于策略的方法和基于价值的方法。前面课程中提到的方法都是基于价值的方法,包括策略迭代、值迭代和值函数近似。基于价值的方法是根据价值函数来制定策略,这是一种间接优化策略的方式。那么我们可不可以直接得到策略?类似于值函数近似,我们用参数拟合策略,直接得到策略,这就是本课要讲的基于策略的方法—策略梯度
相关文章
相关标签/搜索