【强化学习】第二篇--基于模型的动态规划法

做者:王小草 笔记时间:2019年1月21日web 1 价值函数的计算困难 1.1 最优值函数的递归定义 先来回忆一下最优状态值函数和最优状态-行为值函数。算法 最优状态价值函数:考虑这个状态下,可能发生的全部后续动做,而且挑最好的动做来执行的状况下,这个状态的价值。 缓存 最优状态-动做值函数:在这个状态下执行了一个特定的动做,而且该动做的后续状态总能选取最好的动做来执行,所获得的长期价值 ko
相关文章
相关标签/搜索