强化学习（RLAI）读书笔记第十章On-Policy Control with Approximation

时间 2021-01-07

标签 RLAI 繁體版

原文原文链接

目前继续考虑on-policy的带逼近的control算法。这章主要介绍半梯度Sarsa算法，也就是半梯度TD(0)算法对于动作值估计以及on-policy control算法的自然延伸。虽然这个延伸对于episodic的情况是很自然的，但是对于continuing的情况，我们需要再次考虑对于discounting方法来定义一个最优策略的方式。而当我们使用函数逼近的时候需要放弃discountin

>>阅读原文<<