强化学习算法学习汇总笔记 (一) — Q-learning、Sarsa、DQN、Policy Gradients

时间 2020-05-23

标签强化学习算法汇总笔记 learning sarsa dqn policy gradients 繁體版

原文原文链接

一. 强化学习的分类 1.Model-free 和 Model-based Model-free 即机器人不知道外界环境信息，只能在机器人执行每一步动做后从环境中获得反馈而后去学习，只能循序渐进，一步一步等待真实世界的反馈，再根据反馈采起下一步行动。诸如Q Learning， Sarsa，Policy Gradients等算法。python Model-based 指机器人对环境有必定的了解，能够

>>阅读原文<<