强化学习的分类

时间 2019-12-07 标签强化学习分类

on-policy: 必须本人在场, 而且必定是本人边玩边学习，例如Sarsa，Sarsa(lambda)，TRPO。
off-policy: 能够选择本身玩, 也能够选择看着别人玩, 经过看别人玩来学习别人的行为准则，例如Q-learning，DQN，Deterministic policy gradient。
on-policy和off-policy本质区别在于：更新Q值的时候是使用既定策略仍是使用新的策略。web
Model-free：不尝试去理解环境, 环境给什么就是什么，一步一步等待真实世界的反馈, 再根据反馈采起下一步行动。例如Q-learning，Sarsa，Policy Gradients。svg
Model-based：先理解真实世界是怎样的, 并创建一个模型来模拟现实世界的反馈，经过想象来预判断接下来将要发生的全部状况，而后选择这些想象状况中最好的那种，并依据这种状况来采起下一步的策略。它比 Model-free 多出了一个虚拟环境，还有想象力。学习
Policy based：目标是找到最优策略，经过感官分析所处的环境, 直接输出下一步要采起的各类动做的几率, 而后根据几率采起行动。例如Policy Gradients，Actor-Criticxml
Value based：目标是找到最优奖励总和，输出的是全部动做的价值, 根据最高价值来选动做，这类方法不能选取连续的动做。例如Q-learning，Sarsa，Actor-Critic游戏
Monte-carlo update：游戏开始后, 要等待游戏结束, 而后再总结这一回合中的全部转折点, 再更新行为准则。例如policy gradients，MCget
Temporal-difference update：在游戏进行中每一步都在更新, 不用等待游戏的结束, 这样就能边玩边学习了。例如Q-learning，Sarsa，升级版的PG.it
exploration (探索)会尝试不少不一样的事情，看它们是否比之前尝试过的更好。 io
exploitation (利用)会尝试过去经验中最有效的行为。

参考：https://zhuanlan.zhihu.com/p/24806654sed