【李弘毅深度强化学习】 5.Q-learning (Continuous Action)

时间 2021-01-16

原文原文链接

Q Learning是一种很好的方法，但是q learning很难处理连续动作的情况。因为q学习是基于值得，如果动作连续，q表太大，则很难计算。但是凡是问题都有解决的方法，如何解决Q Learning难以应对连续动作得问题呢！解决方法一：在连续得动作中，我们sample采样出一部分n个，将其变成有限动作的问题。但是这种方法的缺点就是采样不完整，可能会造成以后的问题解决方法二：我们用梯度增加的

>>阅读原文<<