强化学习论文笔记:Real-Time Reinforcement Learning

Real-time Reinforcement Learning   简介 NeurIPS 2019上蒙特利尔大学的工作 在连续时间的决策任务中,环境在动作选择时是实时变化的。作者定义了实时马尔可夫决策过程(RTMDP)并提出强化学习算法Real-Time Actor-Critic(RTAC),相比于传统方法能够更好地学习实时环境下的最优策略   问题 存在动作选择延迟的连续时间马尔可夫环境下的实
相关文章
相关标签/搜索