强化学习:DP

欢迎加群:1012878218,一起学习、交流强化学习,里面会有关于深度学习、机器学习、强化学习的各种资料 。 术语动态规划(DP)指的是一组算法,可以用来计算最佳策略,给定一个作为马尔可夫决策过程(MDP)的完美环境模型。 经典的DP算法在强化学习中的作用有限,因为它们都假设了一个完美的模型,并且由于它们的计算耗费巨大,但它们在理论上仍然很重要。 DP为理解本书其余部分介绍的方法提供了必要的基础
相关文章
相关标签/搜索