Latent Space Policies for Hierarchical Reinforcement Learning

基于潜变量的层级强化学习,主要依赖的工作有:SAC和real NVP 摘要 本文的目标是设计一个层级强化学习算法,按照自底向上的方式逐层构建分层表示。不同与以往HRL强制底层agent使用高层信号,从而限制或削弱其能力,进而强制层次生成,本文提出的框架中的每一层都致力于直接完成任务。 框架内的每一层都被添加了潜变量,可从先验分布中采样得到。最大熵强化学习将这些潜变量和每一层的策略结合起来,并且高层
相关文章
相关标签/搜索