【RL从入门到放弃】【四】

1、Deep Q Network deep q network是基础是q_learning,里面的改善包含三个方面 1、深度神经网络逼近值函数 DQN利用深度卷积神经网络逼近值函数,DQN的行为值函数利用神经网络逼近,属于非线性逼近。虽然逼近方法不同,但都属于参数逼近。请记住,此处的值函数对应着⼀组参数,在神经网络,参数是每层网络的权重,我们表示。公式表示的话值函数为 。请留意,此时更新值函数时其
相关文章
相关标签/搜索