强化学习(RLAI)读书笔记第十二章资格迹(Eligibility Traces)

资格迹是强化学习算法中的一个基本机制。比如很流行的其中的指的就是资格迹的使用。基本上所有的TD算法都能够和资格迹进行组合从而得到一个更通用的算法。资格迹把TD和MC方法统一了起来。当TD算法和资格迹进行组合使用时,得到了一组从一步TD延伸到MC算法的算法家族。一般中间部分的算法效果比两端的好。资格迹同样提供了一种在线continuing形式的问题上使用MC算法的实现方式。 之前第七章使用n步TD法
相关文章
相关标签/搜索