[强化学习-2] DP-值估计和策略控制

时间 2021-01-08

原文原文链接

上一篇博客讲了强化学习中的几个基本概念，其中推导的贝尔曼方程是一个很重要的部分。在上一篇博客里也说过MRP里的贝尔曼方程可以通过求解矩阵直接得到收敛后的state-value function，但是计算复杂度高，我们这节采用动态规划的方式求解值估计值估计就是预测问题，策略估计就是给定该策略后，估计所有状态的价值即估计状态值函数v(s) 定义：MRP或者给定策略π的MDP，求出状态价值函数 v(

>>阅读原文<<