[Reinforcement Learning] Value Function Approximation

[Reinforcement Learning] Value Function Approximation 为什么需要值函数近似? 之前我们提到过各种计算值函数的方法,比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数;对于 MDP 未知的情况,可以通过 MC 以及 TD 方法来获得值函数,为什么需要再进行值函数近似呢? 其实到目前为止,我们介绍的值函数计算方法都是通过查表的
相关文章
相关标签/搜索