强化学习中的各种算法

现有的强化学习主要分为五种: 经过价值选行为:Q-learning、Sarsa、Deep Q Network 直接选行为:Policy Gradients 想象环境并从中学习:Model Based RLpython 回合更新:基础版的Policy Gradients、Monte-Carlo Learning 单步更新:Q Learning、Sarsa、升级版Policy Gradientsweb
相关文章
相关标签/搜索