【RL从入门到放弃】【四】

时间 2021-01-06

原文原文链接

1、Deep Q Network deep q network是基础是q_learning,里面的改善包含三个方面 1、深度神经网络逼近值函数 DQN利用深度卷积神经网络逼近值函数，DQN的行为值函数利用神经网络逼近，属于非线性逼近。虽然逼近方法不同，但都属于参数逼近。请记住，此处的值函数对应着⼀组参数，在神经网络，参数是每层网络的权重，我们表示。公式表示的话值函数为。请留意，此时更新值函数时其

>>阅读原文<<