论文笔记--Guided Meta-Policy Search

论文笔记-- Guided Meta-policy Search--nips19 核心思想 Guided Meta-Policy Search 元学习阶段(二阶段) 专家策略学习阶段(一阶段) 一点思考 核心思想 传统的元强化学习方法在meta-training过程中需要大量的数据,因为很多是on-policy的。在许多问题中很难满足。本文的思想是在元学习阶段(learn a RL procedu
相关文章
相关标签/搜索