强化学习系列之三:模型无关的策略评价

文章目录 [隐藏] 1. 蒙特卡罗算法 2. 时差学习算法 3. 一个例子 4. 总结 强化学习系列系列文章       上一章我们介绍了模型相关 (Model-based) 的强化学习。从现在开始我们要介绍模型无关 (Model-free) 的强化学习。       由于模型无关的强化学习比较复杂,今天先介绍其中一部分——模型无关的策略评价。模型无关的策略评价是,不知道马尔科夫决策过程转移概率和
相关文章
相关标签/搜索