强化学习(七):策略梯度

回顾 在上一节中,我们主要是利用函数近似来将 Vπ(s) V π ( s ) 与 Qπ(s,a) Q π ( s , a ) 参数化: 而我们的策略 π π 则是从Q值中产生的。比如我们一直使用的 ϵ−greedy ϵ − g r e e d y 探索方法就是根据最大的Q值来选择动作(action)。没有Q值的话就无法使用这个方法了。也就是这个策略的更新是根据Q值的变化的。那么在本节,我们将直接对
相关文章
相关标签/搜索