深度——强化学习、深度森林

时间 2021-01-01

标签深度学习繁體版

原文原文链接

Sutton’sTD（0）算法：考虑当前回报和下一状态的估计值，它的更新公式： • Q-learing算法：它和Sutton’sTD(0)算法类似，只是将动作集A也考虑进来。定义动作价值函数Q（s,a），深度强化学习 DRL 深度学习感知能力强；强化学习决策能力强；结合更好！根据环境做出的奖励来决策典型应用：DQN 把Q-learning中的价值函数用深度神经网络来近似。包括主网络和目

>>阅读原文<<