Reinforcement Learning:An Introduction第二章读书笔记

Part I:Tabular Solution Methods 在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列,表来展示。在这些例子中,都能准确地找到最佳值函数和最佳策略。这与下一部分是不同的,下一部分模糊的解决,但适用范围更广。 这一部分的第一章介绍了强化学习的特殊例子,它只有一种情况,被称作bandit问题。第二章介绍了
相关文章
相关标签/搜索