深度——强化学习、深度森林

Sutton’sTD(0)算法:考虑当前回报和下一状态的估计值,它的更新公式 : • Q-learing算法:它和Sutton’sTD(0)算法类似,只是将动作集A也考虑进来。 定义动作价值函数Q(s,a), 深度强化学习 DRL 深度学习感知能力强;强化学习决策能力强;结合更好! 根据环境做出的奖励来决策 典型应用:DQN 把Q-learning中的价值函数用深度神经网络来近似。 包括主网络和目
相关文章
相关标签/搜索