强化学习实例10：Q-Learning

时间 2019-12-06

标签强化学习实例 learning 繁體版

原文原文链接

SARASA算法：python SARSA算法听从了交互序列，根据下一步的真实行动进行价值估计；算法另外一种TD法，Q-Learning算法没有遵循交互序列，而是在下一时刻选择了使价值最大的行动。dom 这两种算法表明了两种策略评估的方式，分别是On-Policy和Off-Policy。函数 On-Policy对值函数的更新是彻底依据交互序列进行的，在计算时认为价值能够直接利用采样的序列估计获得

>>阅读原文<<