[强化学习-2] DP-值估计和策略控制

上一篇博客讲了强化学习中的几个基本概念,其中推导的贝尔曼方程是一个很重要的部分。在上一篇博客里也说过MRP里的贝尔曼方程可以通过求解矩阵直接得到收敛后的state-value function,但是计算复杂度高,我们这节采用动态规划的方式求解 值估计 值估计就是预测问题,策略估计就是给定该策略后,估计所有状态的价值即估计状态值函数v(s) 定义:MRP或者给定策略π的MDP,求出状态价值函数 v(
相关文章
相关标签/搜索