7. 强化学习之——基于模型的强化学习

课程大纲 model-based RL 概要 model-based value optimization model-based policy optimization case study 基于模型的强化学习概要 之前学 model-free RL 的时候 (1)从经验中利用 policy gradient 直接学习 policy (2)利用 MC 或者 TD 学习 value functio
相关文章
相关标签/搜索