《Reinforcement Learning》读书笔记 4：动态规划（Dynamic Programing）

时间 2021-01-08

标签强化学习 reinforce learning 读书笔记动态规划 dynamic programming 繁體版

原文原文链接

《Reinforcement Learning: An Introduction》读书笔记 - 目录为了求解价值函数，或更一步得到最优策略，可以解Bellman方程组，但是当状态集太大时，求解的复杂度太高，所以这一章主要介绍了一些迭代的方式来逼近精确解，在不损失精度的情况下，大幅减少复杂度（对state-value function来说，一般是 O(|S|k) O ( | S | k ) ，即

>>阅读原文<<

《Reinforcement Learning》 读书笔记 4：动态规划（Dynamic Programing）

《Reinforcement Learning》读书笔记 4：动态规划（Dynamic Programing）