强化学习系列之四:模型无关的策略学习

时间 2021-01-19

原文原文链接

文章目录 [隐藏] 1. 一些前置话题 2. MC Control 3. SARSA 4. Q Learning 5. 做点实验 5.1. 算法稳定性 5.2. 贪婪策略的影响 5.3. 不同算法的效果对比 6. 总结强化学习系列系列文章模型无关的策略学习，是在不知道马尔科夫决策过程的情况下学习到最优策略。模型无关的策略学习主要有三种算法: MC Control, SARSA 和