强化学习(RLAI)读书笔记第四章动态规划

第四章:动态规划 动态规划是指一类在MDP下对环境有完全建模的计算最优策略的算法。经典的DP算法在强化学习中应用有限,不仅是因为需要对环境进行完全建模,而且还需要很多的计算资源。但是这个算法在理论上依然很重要。实际上,书中后面章节的所有算法都可以看成想要使用更少的计算资源而且不需要对环境完全建模的尽可能达到DP的效果的尝试。 一般我们假设环境是有限状态MDP。尽管动态规划也可以应用到连续状态和连续
相关文章
相关标签/搜索