Value function approximation

时间 2021-01-02

原文原文链接

前面的一篇博客:Model-free control：如何从经验中学习一个好的策略到目前为止，我们都假设了可以将价值函数或state-action价值(即Q函数)表示成向量或者矩阵表格表示法很多现实世界的问题会有巨大的状态空间和/或动作空间表格表示法是不够用(insufficient)的回顾：强化学习包括 Optimization(优化) Delayed consequence(效果