强化学习之深度Q函数

背景:强化学习玩游戏 模拟器(model 或 emulator)以动作(action)为输入,输出一张图像和奖励。 单张图像无法完全理解agent的当前状态,所以得结合动作与状态序列的信息。 agent的目标是,以一定的方式选择动作,与模拟器进行相交,来最大化将来的奖励。 Bellman equation: Q∗(s,a)=Es′∈ϵ[r+γmaxQ∗(s′,a′)|s,a] 强化学习的一般方法是
相关文章
相关标签/搜索