强化学习系列之三:模型无关的策略评价

时间 2021-01-19

原文原文链接

文章目录 [隐藏] 1. 蒙特卡罗算法 2. 时差学习算法 3. 一个例子 4. 总结强化学习系列系列文章上一章我们介绍了模型相关 (Model-based) 的强化学习。从现在开始我们要介绍模型无关 (Model-free) 的强化学习。由于模型无关的强化学习比较复杂，今天先介绍其中一部分——模型无关的策略评价。模型无关的策略评价是，不知道马尔科夫决策过程转移概率和

>>阅读原文<<