强化学习学习笔记10.23

时间 2021-07-13

原文原文链接

马尔可夫链 & 马尔可夫奖励过程：自己的初步理解就是，在某个环境中主体可能存在n个状态，每个状态都对应这一个奖励，当前状态有一定概率转移到其他状态或者保持原样不动，那么当前状态 t1得到的奖励 = 当前状态的奖励 + γ(折扣率) * (转移到状态n的概率 * 状态n的奖励 ) γ的设定原因之一是为了避免死循环，可作为参数所有时间得到的奖励: 总奖励 = ti时间所在状态得到的奖励 * 折扣

>>阅读原文<<