强化学习(尔) - 马尔科夫决策过程

马尔科夫决策过程 Makov的定义 下一个状态的产生只和当前的状态有关,即: 本来直观上讲,下一个状态的产生跟所有历史状态是有关的,也就是等式右边所示。但是Markov的定义则是忽略掉历史信息,只保留当前状态的信息来预测下一个状态,这就叫Markov。 状态转移概率 对于一个具体的状态s和它的下一个状态s’ ,它们的状态转移概率(就是从s转移到s’的概率)定义为: 假如总共有n种状态可以选择。那么
相关文章
相关标签/搜索