David silver强化学习课程第三课 动态规划

第三课 动态规划 本章主要讲了利用动态规划解决MDP的预测和控制两个问题。策略评估用来解决预测问题,策略迭代和值迭代用来解决控制问题,这都是建立在已知完整信息的MDP问题当中。 1 动态规划简介 动态:指的是该问题的时间序贯部分 规划:指的是去优化一个策略 那么哪些问题可以用动态规划求解呢?需要满足两个特性: 最优子结构:求解问题可以分解为求解若干个子问题,子问题最优解构成了问题的最优解 重叠子问
相关文章
相关标签/搜索