强化学习专题笔记(一) 强化学习基础

一、长期回报 对于问题的简化,采用理想的MDP,简化问题到具有马尔科夫性,对于马尔科夫决策过程而言,在理想状态下,每一个行动都要为最终的目标最大化长期回报 而努力。 max ⁡ ∑ t r t \max\sum_{t}{r_t} maxt∑​rt​ 但是很多情况下,仿真的时间维度较大,步数较多,甚至可以无限循环下去,这样的情况下我们需要引入一个可以和收敛的无穷数列,来替代我们最原始的长期回报公式。
相关文章
相关标签/搜索