Latent Space Policies for Hierarchical Reinforcement Learning

时间 2021-01-02

原文原文链接

基于潜变量的层级强化学习，主要依赖的工作有：SAC和real NVP 摘要本文的目标是设计一个层级强化学习算法，按照自底向上的方式逐层构建分层表示。不同与以往HRL强制底层agent使用高层信号，从而限制或削弱其能力，进而强制层次生成，本文提出的框架中的每一层都致力于直接完成任务。框架内的每一层都被添加了潜变量，可从先验分布中采样得到。最大熵强化学习将这些潜变量和每一层的策略结合起来，并且高层

>>阅读原文<<