三、表格型方法

时间 2021-01-27

原文原文链接

三、表格型方法文章目录三、表格型方法 Sarsa on-policy和off-policy Q-learning Sarsa MDP问题可以表示为四元组（S，A， R，P）。S为状态，A为动作，R为奖励，P为转移概率。也可以在四元组的基础上再加一个衰减因子γ表示为五元组。如果我们知道这些状态转移概率和奖励函数的话，就说这个环境是已知的，因为我们是用这两个函数去描述环境的。我们用价值函数V，V