强化学习(RLAI)读书笔记第六章差分学习(TD-learning)

第六章:Temporal-Difference Learning TD-learning算法是强化学习中一个独具特色而又核心的想法,结合了蒙特卡洛算法和动态规划的想法。和MC一样不需要环境模型直接从sample里学习,也像DP一样使用bootstrap通过别的状态值的估计更新当前状态值。首先也关注的是给定策略进行prediction或者叫policy evaluation。对于control(找到
相关文章
相关标签/搜索