强化学习【六】价值函数的近似表示 (内含DQN)

前言 本章之前的内容介绍的多是规模比较小的强化学习问题,生活中有许多实际问题要复杂得多,有些是属于状态数量巨大甚至是连续的,有些行为数量较大或者是连续的。这些问题要是使用前几章介绍的基本算法效率会很低,甚至会无法得到较好的解决。本章就聚焦于求解那些状态数量多或者是连续状态的强化学习问题。 解决这类问题的常用方法是不再使用字典之类的查表式的方法来存储状态或行为的价值,而是引入适当的参数,选取恰当的描
相关文章
相关标签/搜索