从AlphaGo 看 Monte Carlo Tree Search

时间 2020-12-23

原文原文链接

1 Markov 决策过程 1.1 Markov 过程简单介绍离散时间有限状态的Markov过程一个离散时间有限状态随机过程可以表示为一个三元组 {T,S,P} T :指标集，可以简单的看为时间点 S :状态集，所有可能出现的状态 P : S×S→[0,1] 状态转移概率,表示从状态 pij=P(si→sj) {X0,X1,X2,..,Xn,...} Xn∈S,n>=0 是其状态序列. 如果