强化学习(2) 动态规划（Dymatic Progressing）

时间 2021-07-14

标签强化学习RL 机器学习深度学习繁體版

原文原文链接

1. 1 同步价值迭代动态规划来解决强化学习的规划问题。在已经了解了状态、行为空间、转移概率矩阵、奖励等信息的基础上，判断一个策略的价值函数。或者判断策略的优劣寻找最优的策略。一般强化学习是不知道上述的一些动力学环境，而且复杂的问题无法通过动态规划解决。动态规划思想是把复杂问题变成求解子问题，最终再得到整个问题。子问题的结果一般需要保存以备后用。如果某个子问题重复出现，就可以重复使用结果。

>>阅读原文<<