强化学习基础第三讲蒙特卡罗方法

时间 2021-01-04

原文原文链接

强化学习基础第三讲蒙特卡罗方法上一节课我们讲了已知模型时，利用动态规划的方法求解马尔科夫决策问题。从这节课开始，我们讲无模型的强化学习算法。图3.1 强化学习方法分类解决无模型的马尔科夫决策问题是强化学习算法的精髓。如图3.1所示，无模型的强化学习算法主要包括蒙特卡罗方法和时间差分方法。这一节我们先讲蒙特卡罗的方法。在讲解蒙特卡罗方法之前，先梳理一下整个强化学习研究思路。首先强化学习问

>>阅读原文<<

强化学习基础 第三讲 蒙特卡罗方法

强化学习基础第三讲蒙特卡罗方法