加强学习之Q-learning走迷宫

Q-Learning算法 整个算法就是一直不断更新 Q table 里的值, 而后再根据新的值来判断要在某个 state 采起怎样的 action. Qlearning 是一个 off-policy 的算法, 由于里面的 max action 让 Q table 的更新能够不基于正在经历的经验(能够是如今学习着好久之前的经验,甚至是学习他人的经验).python Q-learning中的Q函数 -
相关文章
相关标签/搜索