【强化学习】第二篇--基于模型的动态规划法

作者:王小草 笔记时间:2019年1月21日 1 价值函数的计算困难 1.1 最优值函数的递归定义 先来回忆一下最优状态值函数和最优状态-行为值函数。 最优状态价值函数:考虑这个状态下,可能发生的所有后续动作,并且挑最好的动作来执行的情况下,这个状态的价值。 最优状态-动作值函数:在这个状态下执行了一个特定的动作,并且该动作的后续状态总能选取最好的动作来执行,所得到的长期价值 以上两个价值函数,对
相关文章
相关标签/搜索