强化学习中的Q-learning算法和Sarsa算法的区别

欢迎点击参观我的 ——> 个人学习网站 Q-learning 算法描述: Sarsa 算法描述: 假设我们的 Q(s, a) 是一个 Q table ,如下图所示,该表格表示共有三个 state (状态): s1 s 1 、 s2 s 2 、 s3 s 3 ,每个状态都有三个可选 action (动作) : a1 a 1 、 a2 a 2 、 a3 a 3 ,对所有的状态-动作以 0 赋值: Q(
相关文章
相关标签/搜索