基于分位数回归的分布强化学习（Distributional Reinforcemet Learning with Quantile Regression)

时间 2021-01-15

标签深度强化学习强化学习 Deep Mind 繁體版

原文原文链接

摘要 Deep Mind团队联合剑桥大学在2017年提出了一种新的强化学习范式——基于分位数回归的分布强化学习（QR-DRL），为强化学习的未来发展指明了一个更加有前景的方向，以学习回报值的概率分布来代替学习回报值的期望值。Deep Mind的论文通过在atari游戏中的实验，证明了QR-DRL的强大性能，在众多游戏中都达到了state-of-art。私以为QR-DRL是近年来为数不多的，从根本理

>>阅读原文<<