基于分位数回归的分布强化学习(Distributional Reinforcemet Learning with Quantile Regression)

摘要 Deep Mind团队联合剑桥大学在2017年提出了一种新的强化学习范式——基于分位数回归的分布强化学习(QR-DRL),为强化学习的未来发展指明了一个更加有前景的方向,以学习回报值的概率分布来代替学习回报值的期望值。Deep Mind的论文通过在atari游戏中的实验,证明了QR-DRL的强大性能,在众多游戏中都达到了state-of-art。私以为QR-DRL是近年来为数不多的,从根本理
相关文章
相关标签/搜索