时序差分算法(Temporal-Difference Learning)

概述 时序差分算法是一种无模型的强化学习算法。它继承了动态规划(Dynamic Programming)和蒙特卡罗方法(Monte Carlo Methods)的优势,从而对状态值(state value)和策略(optimal policy)进行预测。从本质上来讲,时序差分算法和动态规划同样,是一种bootstrapping的算法。同时,也和蒙特卡罗方法同样,是一种无模型的强化学习算法,其原理也
相关文章
相关标签/搜索