强化学习：基于MDP的经典RL方法 (基于南大俞扬博士演讲的少量修改和补充）

时间 2021-01-16

标签 Q-learning SARSA off-policy on-policy 繁體版

原文原文链接

三、从马尔可夫决策过程到强化学习在强化学习任务中，奖赏和转移都是未知的，需要通过学习得出。具体解决办法有两个：一种是还原出奖赏函数和转移函数。首先把MDP还原出来，然后再在MDP上解这个策略，这类方法称为有模型（Model-Based）方法，这里的模型指的是MDP。还有一类和它相对应的方法，免模型（Model-Free）法，即不还原奖赏和转移。基于模型的方法在这类方法中，智能体会维护Mo

>>阅读原文<<