David silver强化学习课程第七课策略梯度

时间 2020-12-23

标签人工智能强化学习繁體版

原文原文链接

第七课策略梯度快开学了比较懒，这两天督促一下自己把后面的笔记都整理一下。。。强化学习方法分为两种：基于策略的方法和基于价值的方法。前面课程中提到的方法都是基于价值的方法，包括策略迭代、值迭代和值函数近似。基于价值的方法是根据价值函数来制定策略，这是一种间接优化策略的方式。那么我们可不可以直接得到策略？类似于值函数近似，我们用参数拟合策略，直接得到策略，这就是本课要讲的基于策略的方法—策略梯度

>>阅读原文<<

David silver强化学习课程第七课 策略梯度

David silver强化学习课程第七课策略梯度