基于模型的强化学习

(1)在model-based RL里,虽然学习MDP模型可以提高强化学习的效率,但是如果模型误差较大可能导致学不到较好的策略,这个问题一般怎么解决? 如果模型学习的不够精准,那就只能用很短很短的rollout来做planning。例如Q-planning就是1步的rollout,这样并不能特别高的提升sample efficiency。 如果模型比较准,那就可以用Model-based Poli
相关文章
相关标签/搜索