强化学习入门总结

目录 一、强化学习概述 1.强化学习简介 2.发展历程: 3.MDP(马儿可夫决策过程) 4.why RL? 5.总结: 二、强化学习求解方法 1.动态规划方法 2.蒙特卡洛方法 3.时间差分方法 三、强化学习算法分类 1.分类一: 2.分类二: 3.分类三: 4.分类四: 四、代表性算法 1.Q-learning 2.Sarsa: 3.大名鼎鼎的DQN 4.Policy Gradients算法
相关文章
相关标签/搜索