强化学习-An introduction之 动态规划(DP) 个人笔记

Chapter 4 DP 上一章的 two forms of the Bellman optimality equation: or 1 Policy Evaluation update rule: vk v k 收敛到 vπ v π . 常规的update使用两个数组来存放old和new values,这是two-array version; 还有一种是使用一个数组,直接在原有的array上更新
相关文章
相关标签/搜索