马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)

马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)
上文介绍了马尔科夫决策过程之Markov Processes(马尔科夫过程),能够移步到下面:
马尔科夫决策过程之Markov Processes(马尔科夫过程)机器学习

本文咱们总结一下马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程),value function等知识点。ide

1Markov Reward Process


马尔科夫奖励过程在马尔科夫过程的基础上增长了奖励R和衰减系数γ:<S,P,R,γ>。函数

R是一个奖励函数。S状态下的奖励是某一时刻(t)处在状态s下在下一个时刻(t+1)能得到的奖励指望,以下:
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)
这里你们可能有疑问的是为何 Rt+1而不是Rt,咱们更倾向于理解起来这至关于离开这个状态才能得到奖励而不是进入这个状态即得到奖励。视频中也有学生请教了David。学习

David的回答:David指出这仅是一个约定,为了在描述RL问题中涉及到的观测O、行为A、和奖励R时比较方便。3d

他同时指出若是把奖励改成Rt而不是Rt+1,只要规定好,本质上意义是相同的,在表述上能够把奖励描述为“当进入某个状态会得到相应的奖励”。你们认为是约定就好。code

详细的定义以下:视频

马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)

2Example: Student MRP


下图是一个“马尔科夫奖励过程”图示的例子,在“马尔科夫过程”基础上增长了针对每个状态的奖励。
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)blog

举例说明:当学生处在第一节课(Class1)时,他/她参加第2节课(Class2)后得到的Reward是-1;同时进入到浏览facebook这个状态中得到的Reward也是-1。ci

在浏览facebook这个状态时,会有在下一时刻继续浏览得到的Reward为-1,返回到课堂内容上来的得到的Reward为-1。深度学习

当学生进入到第二节课(Class2)时,继续参加第三节课(Class3)得到的Reward为-2,较进行Sleep的Reward为-2。

当学生处于第三节课这个状态时,他经过考试的Reward为+10,进行到其它状态的Reward也是一样道理。

3Return


定义:收获Gt为在一个马尔科夫奖励链上从t时刻开始日后全部的奖励的有衰减的收益总和。
定义公式以下:
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)

4Why discount?


关于Return的计算为何须要 折扣系数。David给出了下面几条的解释:

  • 数学表达的方便,这也是最重要的
  • 避免陷入无限循环
  • 远期利益具备必定的不肯定性
  • 在金融学上,当即的回报相对于延迟的汇报可以得到更多的利益
  • 符合人类更看重眼前利益的性格
    slides以下:
    马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)

5Value function


价值函数给出了某一状态或某一行为的长期价值。
定义:一个马尔科夫奖励过程当中某一状态的价值函数为从该状态开始的马尔可夫链收获的指望:
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)
为何会有指望符号,由于Gt咱们在上面说过,从t时刻到终止状态的马尔科夫链不止一条,每一条都有对应的几率和Return收益,因此对应的几率乘以相应的收益天然就会有指望符号,ppt以下:

马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)

6Example: Student MRP Returns


咱们来看G1的例子:
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)
上图的计算其实就是对下面这个Markov Reward Process图的计算:
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)

咱们可以看出G1其实就有4条路径了,每一条路径都有对应的几率,那么从咱们就能理解value function在评估某个状态下的价值的时候,是须要加上指望符号的。
而上面这个例子若是计算value function为(若是总共只有这四条路径,而且每条的几率为1/4):
v(s) = (-2.25+(-3.125)+(-3.41)+(-3.20))/4 =2.996

暂时总结到这,下一讲总结Bellman Equation, Markov Decision Process等知识点~

参考:
David Silver深度强化学习课程
第2课 - 马尔科夫决策过程叶强:《强化学习》第二讲 马尔科夫决策过程
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)

推荐阅读:

马尔科夫决策过程之Markov Processes(马尔科夫过程)
【深度学习实战】pytorch中如何处理RNN输入变长序列padding
【机器学习基本理论】详解最大后验几率估计(MAP)的理解

欢迎关注公众号学习交流~

马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)

相关文章
相关标签/搜索