[Reinforcement Learning] Value Function Approximation

时间 2021-01-02

原文原文链接

[Reinforcement Learning] Value Function Approximation 为什么需要值函数近似？之前我们提到过各种计算值函数的方法，比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数；对于 MDP 未知的情况，可以通过 MC 以及 TD 方法来获得值函数，为什么需要再进行值函数近似呢？其实到目前为止，我们介绍的值函数计算方法都是通过查表的