从Q_Learning看强化学习

时间 2021-01-01

标签 Python # 强化学习 python 强化学习 Q_Learning gym 栏目 Python 繁體版

原文原文链接

原文地址分类目录——强化学习 Q值 Q值是一个与状态s和动作a相关的值，表示的意义为在状态s下选择动作a的程度，但应该注意它不同于强化学习中的回报R，回报是局部的，只在当下的状态上，相当于到达了某个成就点？Q值是全局性的，当下的Q值受到后续所有Q值的影响。两者之间存在着正的相关关系，选择Q值最大的动作，获得的总回报是最大的。下面是Q-Learning更新的两种表示方式，它们是等价的从1式中可

>>阅读原文<<