《Reinforcement Learning》 读书笔记 5:蒙特卡洛(Monte Carlo Methods)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录 问题 前面两章都假设我们已知MDP的分布 p(s′,r|s,a) p ( s ′ , r | s , a ) (model),但有时这一点难以做到(第2章的多臂老虎机问题是一个特殊的例子),或者说这种Markov假设可能是不合理的,那么我们只能从真实/模拟环境中去获取这些知识 PS: 以下只考虑
相关文章
相关标签/搜索