12、Eligibility Traces

文章目录 1、The λ-return 2、TD(λ) 3、An On-line Forward View 4、True Online TD(λ)           有效跟踪(Eligibility traces)是强化学习的基本机制之一。例如,TD(λ)算法,λ引用了有效跟踪。         几乎任何的时间差分(TD)方法,如Q-learning或Sarsa,都可以与有效跟踪相结合,以获得更
相关文章
相关标签/搜索