强化学习中的各类算法

现有的强化学习主要分为五种: 通过价值选行为:Q-learning、Sarsa、Deep Q Network 直接选行为:Policy Gradients 想象环境并从中学习:Model Based RL 回合更新:基础版的Policy Gradients、Monte-Carlo Learning 单步更新:Q Learning、Sarsa、升级版Policy Gradients 一、Q-Lear
相关文章
相关标签/搜索