Q-learning如何处理连续的动作?

文章目录 1、 穷举action 2、使用梯度上升求Q value 3、Normalized Advantage Functions(NAF) 普通的Q-learning比policy gradient比较容易实现,但是在处理连续动作(比如方向盘要转动多少度)的时候就会显得比较吃力。 因为如果action是离散的几个动作,那就可以把这几个动作都代到Q-function去算Q-value。但是如果a
相关文章
相关标签/搜索