从AlphaGo 看 Monte Carlo Tree Search

1 Markov 决策过程 1.1 Markov 过程 简单介绍离散时间有限状态的Markov过程 一个离散时间有限状态随机过程可以表示为一个三元组 {T,S,P} T :指标集,可以简单的看为时间点 S :状态集,所有可能出现的状态 P : S×S→[0,1] 状态转移概率,表示从状态 pij=P(si→sj) {X0,X1,X2,..,Xn,...} Xn∈S,n>=0 是其状态序列. 如果
相关文章
相关标签/搜索