价值函数近似

价值函数逼近 在传统TD算法、Q-leanring中,V价值和Q价值通常是用表格存储,不适用于大规模问题。可以采用近似器来拟合真实的价值函数。 Q ( s , a , θ ) ≈ Q π ( s , a ) Q(s,a,\theta) ≈Q_π(s,a) Q(s,a,θ)≈Qπ​(s,a) V ( s , θ ) ≈ V π ( s ) V(s,\theta) ≈V_π(s) V(s,θ)≈Vπ​
相关文章
相关标签/搜索