【强化学习】第二篇--基于模型的动态规划法

时间 2021-01-13

标签强化学习繁體版

原文原文链接

作者：王小草笔记时间：2019年1月21日 1 价值函数的计算困难 1.1 最优值函数的递归定义先来回忆一下最优状态值函数和最优状态-行为值函数。最优状态价值函数：考虑这个状态下，可能发生的所有后续动作，并且挑最好的动作来执行的情况下，这个状态的价值。最优状态-动作值函数：在这个状态下执行了一个特定的动作，并且该动作的后续状态总能选取最好的动作来执行，所得到的长期价值以上两个价值函数，对

>>阅读原文<<