强化学习系列之四:模型无关的策略学习

文章目录 [隐藏] 1. 一些前置话题 2. MC Control 3. SARSA 4. Q Learning 5. 做点实验 5.1. 算法稳定性 5.2. 贪婪策略的影响 5.3. 不同算法的效果对比 6. 总结 强化学习系列系列文章       模型无关的策略学习,是在不知道马尔科夫决策过程的情况下学习到最优策略。模型无关的策略学习主要有三种算法: MC Control, SARSA 和
相关文章
相关标签/搜索