强化学习三、策略迭代与值迭代

本文参考http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 上一次已经分享了强化学习的概念以及基本的MDP,本节将分享基于Bellman方程和动态规划的策略迭代和值迭代,对于Bellman方程,大家都比较清楚了,那么我们先介绍一下动态规划算法的基本原理 一、动态规划 这里面我要简单介绍一下动态规划,因为严格来说,值迭代与策略迭代是用来
相关文章
相关标签/搜索