论文笔记 Joint Inference of Reward Machines and Policies for Reiforcement Learning

摘要 吸取高阶知识(high-level knowledge)是加快强化学习的一个有效途径。论文研究了一种强化学习问题,其中高阶知识是以reward machines的形式存在的。reward machine是Mealy状态机(Mealy machine)的一类,使用了非马尔科夫(non-Markovian,奖励不仅依赖于当前状态,也依赖于历史状态)的奖励函数(reward function)。论
相关文章
相关标签/搜索