强化学习基础 | (17) 基于模型的强化学习与Dyna算法框架

时间 2021-01-01

标签强化学习基础繁體版

原文原文链接

原文地址在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学习流派，基于模型的强化学习(Model Based RL)，以及基于模型的强化学习算法框架Dyna。本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文。 1. 基于模型的强化学习简介基于价值的强化学习模型和基于策略的强化学习

>>阅读原文<<