强化学习系列(九):On-policy Prediction with Approximation

一、前言 针对 on-policy prediction 问题,用function approximate 估计 state-value function的创新在于:value function 不再是表格形式,而是权重参数为w的数学表达式,即 v̂ (s,w)≈vπ(s) v ^ ( s , w ) ≈ v π ( s ) 。其中 v̂  v ^ 可以是state的线性函数,也可以是一个多层人工
相关文章
相关标签/搜索