强化学习 之 模型无关控制方法

(1)如何理解强化学习中的控制和预测这两个名词? 在强化学习中我们经常会遇到预测(prediction)和控制(control)这两个词。预测问题指的是求解在给定策略(policy)下的价值函数(value function)的过程;而控制问题指的是如何获得一个尽量好的策略来最大化累计奖励(accumulated return)。因此,强化学习的过程常常是在解决预测问题的基础上,进而解决控制问题。
相关文章
相关标签/搜索