强化学习导论 第五章 蒙特卡洛模拟

这一章讲蒙特卡洛方法在强化学习中的应用。 在这一章,我们将接触第一个用于估计value functions,并发现最优policies的方法。和前几章不一样的是,这次假设我们并非完全知道环境的动态信息(转移概率啦那些)。蒙特卡洛方法只需要经验知识,即:来自线上或者模拟环境交互过程的样本序列(包括状态序列、动作序列、奖励序列)。从在线的经验中学习非常酷,因为它不需要任何关于环境动态性质的先验知识,却
相关文章
相关标签/搜索