强化学习的分类

  • on-policy: 必须本人在场, 而且必定是本人边玩边学习,例如Sarsa,Sarsa(lambda),TRPO。
  • off-policy: 能够选择本身玩, 也能够选择看着别人玩, 经过看别人玩来学习别人的行为准则,例如Q-learning,DQN,Deterministic policy gradient。
    on-policy和off-policy本质区别在于:更新Q值的时候是使用既定策略仍是使用新的策略。web

  • Model-free:不尝试去理解环境, 环境给什么就是什么,一步一步等待真实世界的反馈, 再根据反馈采起下一步行动。例如Q-learning,Sarsa,Policy Gradients。svg

  • Model-based:先理解真实世界是怎样的, 并创建一个模型来模拟现实世界的反馈,经过想象来预判断接下来将要发生的全部状况,而后选择这些想象状况中最好的那种,并依据这种状况来采起下一步的策略。它比 Model-free 多出了一个虚拟环境,还有想象力。学习

  • Policy based:目标是找到最优策略,经过感官分析所处的环境, 直接输出下一步要采起的各类动做的几率, 而后根据几率采起行动。例如Policy Gradients,Actor-Criticxml

  • Value based:目标是找到最优奖励总和,输出的是全部动做的价值, 根据最高价值来选动做,这类方法不能选取连续的动做。例如Q-learning,Sarsa,Actor-Critic游戏

  • Monte-carlo update:游戏开始后, 要等待游戏结束, 而后再总结这一回合中的全部转折点, 再更新行为准则。例如policy gradients,MCget

  • Temporal-difference update:在游戏进行中每一步都在更新, 不用等待游戏的结束, 这样就能边玩边学习了。例如Q-learning,Sarsa,升级版的PG.it

  • exploration (探索)会尝试不少不一样的事情,看它们是否比之前尝试过的更好。 io

  • exploitation (利用)会尝试过去经验中最有效的行为。

参考:https://zhuanlan.zhihu.com/p/24806654sed