强化学习(七)：策略梯度

时间 2021-01-12

原文原文链接

回顾在上一节中，我们主要是利用函数近似来将 Vπ(s) V π ( s ) 与 Qπ(s,a) Q π ( s , a ) 参数化：而我们的策略 π π 则是从Q值中产生的。比如我们一直使用的 ϵ−greedy ϵ − g r e e d y 探索方法就是根据最大的Q值来选择动作(action)。没有Q值的话就无法使用这个方法了。也就是这个策略的更新是根据Q值的变化的。那么在本节，我们将直接对

>>阅读原文<<

最新文章

欢迎关注本站公众号,获取更多信息