强化学习系列(十二):Eligibility Traces

一、前言 Eligibility Traces是强化学习的基本原理之一。例如TD( λ λ )算法,( λ λ )表示eligibility traces的使用情况。几乎所有TD方法,如 Q-Learning或Sarsa,都可以和eligibility traces结合起来生成更高效通用的方法。 Eligibility Traces可以用于泛化TD和MC(蒙特卡罗)方法。当用eligibility
相关文章
相关标签/搜索