强化学习基础 第三讲 蒙特卡罗方法

强化学习基础 第三讲 蒙特卡罗方法 上一节课我们讲了已知模型时,利用动态规划的方法求解马尔科夫决策问题。从这节课开始,我们讲无模型的强化学习算法。 图3.1 强化学习方法分类 解决无模型的马尔科夫决策问题是强化学习算法的精髓。如图3.1所示,无模型的强化学习算法主要包括蒙特卡罗方法和时间差分方法。这一节我们先讲蒙特卡罗的方法。 在讲解蒙特卡罗方法之前,先梳理一下整个强化学习研究思路。首先强化学习问
相关文章
相关标签/搜索