Value function approximation

前面的一篇博客:Model-free control:如何从经验中学习一个好的策略 到目前为止,我们都假设了可以将价值函数或state-action价值(即Q函数)表示成向量或者矩阵 表格表示法 很多现实世界的问题会有巨大的状态空间 和/或 动作空间 表格表示法是不够用(insufficient)的 回顾:强化学习包括 Optimization(优化) Delayed consequence(效果
相关文章
相关标签/搜索