David silver强化学习课程第四课 模型无关的预测

第四课 模型无关的预测 在上一节课中,主要讲了利用动态规划的方法求解MDP的预测和控制两个问题,本质上它是model-based的,需要知道模型的信息如状态转移矩阵和回报函数。但是通常遇到的强化学习问题是不知道环境全部信息的,但是具有MDP的形式,在缺乏状态转移矩阵和回报函数的情况下如何求解预测和控制问题? 本章主要讲了三种方法用来求解模型无关(model-free)的预测问题:蒙特卡洛方法(MC
相关文章
相关标签/搜索