Reinforcement Learning:An Introduction第二章读书笔记

时间 2021-01-02

原文原文链接

Part I:Tabular Solution Methods 在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列，表来展示。在这些例子中，都能准确地找到最佳值函数和最佳策略。这与下一部分是不同的，下一部分模糊的解决，但适用范围更广。这一部分的第一章介绍了强化学习的特殊例子，它只有一种情况，被称作bandit问题。第二章介绍了

>>阅读原文<<