强化学习中的各类算法

时间 2021-01-11

原文原文链接

现有的强化学习主要分为五种：通过价值选行为：Q-learning、Sarsa、Deep Q Network 直接选行为：Policy Gradients 想象环境并从中学习：Model Based RL 回合更新：基础版的Policy Gradients、Monte-Carlo Learning 单步更新：Q Learning、Sarsa、升级版Policy Gradients 一、Q-Lear