强化学习算法学习汇总笔记 (一) — Q-learning、Sarsa、DQN、Policy Gradients

一. 强化学习的分类 1.Model-free 和 Model-based Model-free 即机器人不知道外界环境信息,只能在机器人执行每一步动做后从环境中获得反馈而后去学习,只能循序渐进,一步一步等待真实世界的反馈,再根据反馈采起下一步行动。诸如Q Learning, Sarsa,Policy Gradients等算法。python Model-based 指机器人对环境有必定的了解,能够
相关文章
相关标签/搜索