强化学习学习笔记10.23

马尔可夫链 & 马尔可夫奖励过程: 自己的初步理解就是,在某个环境中主体可能存在n个状态,每个状态都对应这一个奖励,当前状态有一定概率转移到其他状态或者保持原样不动,那么当前状态 t1得到的奖励 = 当前状态的奖励 + γ(折扣率) * (转移到状态n的概率 * 状态n的奖励 ) γ的设定原因之一是为了避免死循环, 可作为参数 所有时间得到的奖励: 总奖励 = ti时间所在状态得到的奖励 * 折扣
相关文章
相关标签/搜索