强化学习(RLAI)读书笔记第五章蒙特卡洛方法

第五章:蒙特卡洛方法 和前几章讲的不一样,蒙特卡洛方法不需要对环境进行完全的建模,而只需要经验,也就是实际或者仿真的与环境进行交互的整个样本序列,包括状态动作和反馈信息。从实际交互中学习并不需要对环境建模,而从仿真交互中学习也只需要能够产生相应的转移样本而不是完整的环境状态转移概率分布。而且很多的例子中产生相应的交互例子很容易,得到概率分布却很难。 蒙特卡洛方法采用平均样本反馈的方法来解决强化学习
相关文章
相关标签/搜索