7.连续空间上的Q-learning

时间 2021-01-19

原文原文链接

目录深度强化学习目录简介 Q-learning的实现是比较简单的，但只能用在离散行为空间的情况下。在连续空间中该怎么操作？比较常见的方法是将连续空间离散化，从 A A A中采样，然后再用传统的方法运算。但这种方法是有限的，且效果一般。还有一种方法是gradient ascent。我们知道采取的行为a满足： a = a r g max ⁡ a ∈ A Q ( s , a ) a=arg\max_