强化学习基础学习系列之求解MDP问题的value-base方法

时间 2020-12-29

原文原文链接

介绍动态规划策略迭代值迭代收敛性 MC-TD 估计 MC TD 更新均值 MC与TD的比较 TDlamda MC-TD 控制函数近似介绍在强化学习基础学习系列之MDP里提到了几个重要的点，对于任意一个MDP：（1）都存在一个确定性的最优策略;（2）在这个确定性的最优策略上得到的状态价值函数和动作价值函数都是最优的;（3）通过最优的动作价值函数反过来也可以最优的策略。强化学习的算法可

>>阅读原文<<