量化强化学习中的泛化

时间 2021-01-01

原文原文链接

我们将发布CoinRun，这是一种训练环境，它为agent将其经验转移到新颖情况中的能力提供了度量标准，并且已经帮助澄清了强化学习中的长期难题。CoinRun在复杂性方面取得了理想的平衡：环境比传统的平台游戏（如Sonic）简单，但仍对最先进的算法提出了有价值的泛化挑战。即使是令人印象深刻的RL策略，也经常在没有监督学习技术（如dropout和batch normalization）的情况下进行

>>阅读原文<<