强化学习笔记(一)马尔可夫决策过程

强化学习笔记(一)马尔可夫决策过程 参考资料 正文 Q1: R t R_{t} Rt​, G t G_{t} Gt​, V ( S t ) V(S_{t}) V(St​)都有奖励或收获的含义,它们有什么区别? Q2:为什么 G t G_{t} Gt​使用那样的衰减公式? Q3:贝尔曼方程的作用? Q4: π ( a ∣ s ) \pi(a|s) π(a∣s)和 P s s ′ a P_{ss'}^
相关文章
相关标签/搜索