强化学习之深度Q函数

时间 2020-12-29

原文原文链接

背景：强化学习玩游戏模拟器（model 或 emulator）以动作（action）为输入，输出一张图像和奖励。单张图像无法完全理解agent的当前状态，所以得结合动作与状态序列的信息。 agent的目标是，以一定的方式选择动作，与模拟器进行相交，来最大化将来的奖励。 Bellman equation: Q∗(s,a)=Es′∈ϵ[r+γmaxQ∗(s′,a′)|s,a] 强化学习的一般方法是