《Reinforcement Learning》 读书笔记 4:动态规划(Dynamic Programing)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录 为了求解价值函数,或更一步得到最优策略,可以解Bellman方程组,但是当状态集太大时,求解的复杂度太高,所以这一章主要介绍了一些迭代的方式来逼近精确解,在不损失精度的情况下,大幅减少复杂度(对state-value function来说,一般是 O(|S|k) O ( | S | k ) ,即
相关文章
相关标签/搜索