Q-Learning实现

一、算法: 整个算法就是一直不断更新 Q table 里的值, 而后再根据新的值来判断要在某个 state 采起怎样的 action. Qlearning 是一个 off-policy 的算法, 由于里面的 max action 让 Q table 的更新能够不基于正在经历的经验(能够是如今学习着好久之前的经验,甚至是学习他人的经验). 不过这一次的例子, 咱们没有运用到 off-policy,
相关文章
相关标签/搜索