机器学习(十四)——强化学习

14 强化学习 1 马尔科夫决策过程(MDP) 一个马尔可夫决策过程(Markov decision process)由一个元组(tuple) ( S , A , { P s a } , γ , R ) (S, A, \{P_{sa}\}, \gamma, R) (S,A,{Psa​},γ,R)组成,其中元素分别为: S S S 是一个状态集合(a set of states)。(例如,在无人直升
相关文章
相关标签/搜索