从Q_Learning看强化学习

原文地址 分类目录——强化学习 Q值 Q值是一个与状态s和动作a相关的值,表示的意义为在状态s下选择动作a的程度,但应该注意它不同于强化学习中的回报R,回报是局部的,只在当下的状态上,相当于到达了某个成就点?Q值是全局性的,当下的Q值受到后续所有Q值的影响。两者之间存在着正的相关关系,选择Q值最大的动作,获得的总回报是最大的。 下面是Q-Learning更新的两种表示方式,它们是等价的 从1式中可
相关文章
相关标签/搜索