量化强化学习中的泛化

我们将发布CoinRun,这是一种训练环境,它为agent将其经验转移到新颖情况中的能力提供了度量标准,并且已经帮助澄清了强化学习中的长期难题。CoinRun在复杂性方面取得了理想的平衡:环境比传统的平台游戏(如Sonic)简单,但仍对最先进的算法提出了有价值的泛化挑战。 即使是令人印象深刻的RL策略,也经常在没有监督学习技术(如dropout和batch normalization)的情况下进行
相关文章
相关标签/搜索