强化学习:基于MDP的经典RL方法 (基于南大俞扬博士演讲的少量修改和补充)

三、从马尔可夫决策过程到强化学习 在强化学习任务中,奖赏和转移都是未知的,需要通过学习得出。具体解决办法有两个: 一种是还原出奖赏函数和转移函数。首先把MDP还原出来,然后再在MDP上解这个策略,这类方法称为有模型(Model-Based)方法,这里的模型指的是MDP。 还有一类和它相对应的方法,免模型(Model-Free)法,即不还原奖赏和转移。 基于模型的方法 在这类方法中,智能体会维护Mo
相关文章
相关标签/搜索