MDP的动态规划解法

时间 2019-12-05

标签 mdp 动态规划解法繁體版

原文原文链接

阅读数：25882 上一篇咱们已经说到了，加强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略，使其在任意初始状态下，都能得到最大的Vπ值。(本文不考虑非马尔可夫环境和不彻底可观测马尔可夫决策过程(POMDP)中的加强学习)。html 那么如何求解最优策略呢？基本的解法有三种：算法动态规划法(dynamic programming methods)数组蒙特卡罗方法(Monte Carlo

>>阅读原文<<