基于分位数回归的分布强化学习(Distributional Reinforcemet Learning with Quantile Regression)

摘要 Deep Mind团队联合剑桥大学在2017年提出了一种新的强化学习范式——基于分位数回归的分布强化学习(QR-DRL),为强化学习的将来发展指明了一个更加有前景的方向,以学习回报值的几率分布来代替学习回报值的指望值。Deep Mind的论文经过在atari游戏中的实验,证实了QR-DRL的强大性能,在众多游戏中都达到了state-of-art。私觉得QR-DRL是近年来为数很少的,从根本理
相关文章
相关标签/搜索