强化学习专题笔记(一) 强化学习基础

时间 2021-01-08

原文原文链接

一、长期回报对于问题的简化，采用理想的MDP，简化问题到具有马尔科夫性，对于马尔科夫决策过程而言，在理想状态下，每一个行动都要为最终的目标最大化长期回报而努力。 max ⁡ ∑ t r t \max\sum_{t}{r_t} maxt∑rt 但是很多情况下，仿真的时间维度较大，步数较多，甚至可以无限循环下去，这样的情况下我们需要引入一个可以和收敛的无穷数列，来替代我们最原始的长期回报公式。

>>阅读原文<<