deep Q learning小笔记

1.loss 是什么算法

2.网络

Q-Table的更新问题变成一个函数拟合问题,相近的状态获得相近的输出动做。以下式,经过更新参数 θθ 使Q函数逼近最优Q值 函数

深度神经网络能够自动提取复杂特征,所以,面对高维且连续的状态使用深度神经网络最合适不过了。学习

DRL是将深度学习(DL)与强化学习(RL)结合,直接从高维原始数据学习控制策略。而DQN是DRL的其中一种算法,它要作的就是将卷积神经网络(CNN)和Q-Learning结合起来,CNN的输入是原始图像数据(做为状态State),输出则是每一个动做Action对应的价值评估Value Function(Q值)。spa

相关文章
相关标签/搜索