Q学习(Q-learning)入门小例子及python实现

1、从马尔科夫过程到Q学习 # 有必定基础的读者能够直接看第二部分python Q学习(Q-learning)算法是一种与模型无关的强化学习算法,以马尔科夫决策过程(Markov Decision Processes, MDPs)为理论基础。算法 标准的马尔科夫决策过程能够用一个五元组<S,A,P,R,γ> 表示,其中:app S是一个离散有界的状态空间; A是一个离散的动做空间;  P为状态转移
相关文章
相关标签/搜索