强化学习--动态规划

时间 2021-07-12

原文原文链接

动态规划是强化学习里面最基础的部分，其核心思想----通用策略迭代(Generalized Policy Iteration,GPI)。首先强调一点，动态规划(Dynamic Programming)要求一个完全已知的环境模型，所谓完全已知，就是MDP的五元组全部已知，当然了，主要还是指状态转移概率已知。这种学习方式就是有模型学习(Model-based learning)。这里我的疑问还是两