Q-learning如何处理连续的动作？

时间 2021-07-13

原文原文链接

文章目录 1、穷举action 2、使用梯度上升求Q value 3、Normalized Advantage Functions（NAF）普通的Q-learning比policy gradient比较容易实现，但是在处理连续动作（比如方向盘要转动多少度）的时候就会显得比较吃力。因为如果action是离散的几个动作，那就可以把这几个动作都代到Q-function去算Q-value。但是如果a