三、表格型方法

三、表格型方法 文章目录 三、表格型方法 Sarsa on-policy和off-policy Q-learning Sarsa MDP问题可以表示为四元组(S,A, R,P)。S为状态,A为动作,R为奖励,P为转移概率。也可以在四元组的基础上再加一个衰减因子γ表示为五元组。如果我们知道这些状态转移概率和奖励函数的话,就说这个环境是已知的,因为我们是用这两个函数去描述环境的。 我们用价值函数V,V
相关文章
相关标签/搜索