[强化学习-3] 蒙特卡洛和时序差分法-预测

预测就是估计值函数,上一次我们在讲解值函数估计时用了DP,但是DP只能解决known的MDP,即环境已知,但是实际中很多环境都不可知,因此需要用到这次讲的蒙特卡洛和时序差分 蒙特卡洛(Monte Carlo) 回顾下 vπ(s)的定义 v π ( s ) 的 定 义 vπ(s)=Eπ(Gt|St=s) v π ( s ) = E π ( G t | S t = s ) 就是求给定状态下所有epis
相关文章
相关标签/搜索