强化学习：DP

时间 2020-12-27

原文原文链接

欢迎加群：1012878218，一起学习、交流强化学习，里面会有关于深度学习、机器学习、强化学习的各种资料。术语动态规划（DP）指的是一组算法，可以用来计算最佳策略，给定一个作为马尔可夫决策过程（MDP）的完美环境模型。经典的DP算法在强化学习中的作用有限，因为它们都假设了一个完美的模型，并且由于它们的计算耗费巨大，但它们在理论上仍然很重要。 DP为理解本书其余部分介绍的方法提供了必要的基础

>>阅读原文<<