David silver强化学习课程第四课模型无关的预测

时间 2020-12-23

标签人工智能强化学习繁體版

原文原文链接

第四课模型无关的预测在上一节课中，主要讲了利用动态规划的方法求解MDP的预测和控制两个问题，本质上它是model-based的，需要知道模型的信息如状态转移矩阵和回报函数。但是通常遇到的强化学习问题是不知道环境全部信息的，但是具有MDP的形式，在缺乏状态转移矩阵和回报函数的情况下如何求解预测和控制问题？本章主要讲了三种方法用来求解模型无关(model-free)的预测问题：蒙特卡洛方法(MC

>>阅读原文<<

David silver强化学习课程第四课 模型无关的预测

David silver强化学习课程第四课模型无关的预测