7.连续空间上的Q-learning

目录 深度强化学习目录 简介 Q-learning的实现是比较简单的,但只能用在离散行为空间的情况下。在连续空间中该怎么操作?比较常见的方法是将连续空间离散化,从 A A A中采样,然后再用传统的方法运算。但这种方法是有限的,且效果一般。还有一种方法是gradient ascent。我们知道采取的行为a满足: a = a r g max ⁡ a ∈ A Q ( s , a ) a=arg\max_
相关文章
相关标签/搜索