Reinforcement Learning——DP

Dynamic Programming 动态规划是用来求解MDP的方法之一,动态的含义是问题具有时间或顺序特性,规划的含义是用程序来优化程序,也就是指优化策略。动态规划算法就是两种思想的结合,它把一个复杂的问题分割成许多小的问题,在解决了这些小问题之后原本复杂的问题就随之迎刃而解。在增强学习中,它主要是利用value function来搜索最优策略,利用Bellman方程作为更新规则来计算近似的期
相关文章
相关标签/搜索