强化学习--动态规划

动态规划是强化学习里面最基础的部分,其核心思想----通用策略迭代(Generalized Policy Iteration,GPI)。 首先强调一点,动态规划(Dynamic Programming)要求一个完全已知的环境模型,所谓完全已知,就是MDP的五元组全部已知,当然了,主要还是指状态转移概率已知。这种学习方式就是有模型学习(Model-based learning)。 这里我的疑问还是两
相关文章
相关标签/搜索