强化学习实例10:Q-Learning

SARASA算法:python SARSA算法听从了交互序列,根据下一步的真实行动进行价值估计;算法 另外一种TD法,Q-Learning算法没有遵循交互序列,而是在下一时刻选择了使价值最大的行动。dom 这两种算法表明了两种策略评估的方式,分别是On-Policy和Off-Policy。函数 On-Policy对值函数的更新是彻底依据交互序列进行的,在计算时认为价值能够直接利用采样的序列估计获得
相关文章
相关标签/搜索