强化学习（RLAI）读书笔记第六章差分学习（TD-learning）

时间 2020-12-30

标签强化学习繁體版

原文原文链接

第六章：Temporal-Difference Learning TD-learning算法是强化学习中一个独具特色而又核心的想法，结合了蒙特卡洛算法和动态规划的想法。和MC一样不需要环境模型直接从sample里学习，也像DP一样使用bootstrap通过别的状态值的估计更新当前状态值。首先也关注的是给定策略进行prediction或者叫policy evaluation。对于control（找到

>>阅读原文<<