强化学习(RLAI)读书笔记第十章On-Policy Control with Approximation

目前继续考虑on-policy的带逼近的control算法。这章主要介绍半梯度Sarsa算法,也就是半梯度TD(0)算法对于动作值估计以及on-policy control算法的自然延伸。虽然这个延伸对于episodic的情况是很自然的,但是对于continuing的情况,我们需要再次考虑对于discounting方法来定义一个最优策略的方式。而当我们使用函数逼近的时候需要放弃discountin
相关文章
相关标签/搜索