强化学习基础学习系列之求解MDP问题的value-base方法

介绍 动态规划 策略迭代 值迭代 收敛性 MC-TD 估计 MC TD 更新均值 MC与TD的比较 TDlamda MC-TD 控制 函数近似 介绍 在强化学习基础学习系列之MDP里提到了几个重要的点,对于任意一个MDP:(1)都存在一个确定性的最优策略;(2)在这个确定性的最优策略上得到的状态价值函数和动作价值函数都是最优的;(3)通过最优的动作价值函数反过来也可以最优的策略。 强化学习的算法可
相关文章
相关标签/搜索