强化学习 第7章

第七章 n-step引导 在本章中,我们统一了蒙特卡罗(MC)方法和前两章中介绍的one-step临时(TD)方法。 MC方法和one-step TD方法都不是最好的。在本章中,我们将介绍n-step TD方法,这个方法概括了两种方法,以便可以根据需要平滑地从一种方法转换到另一种方法,以满足特定任务的需求。n-step方法在一端采用MC方法,在另一端采用one-step TD方法。最好的方法通常介
相关文章
相关标签/搜索