强化学习基础 | (17) 基于模型的强化学习与Dyna算法框架

原文地址 在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。 本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文。 1. 基于模型的强化学习简介 基于价值的强化学习模型和基于策略的强化学习
相关文章
相关标签/搜索