马尔可夫决策问题

1.在解释马尔可夫决策问题之前,我们首先应该知道马尔可夫过程(Markov Process),简单理解就是未来的行为只取决于现在的状态,而与之前的状态无关。设是t时刻的状态,那么当满足条件: 时,我们说状态具有马尔可夫性质。 我们讨论一个简单问题时,状态的数目是有限的,不妨设为n个。从而给出状态转移矩阵的定义: ,这个矩阵中的元素aij的值代表从从状态i到状态j的概率。 2.基于马尔可夫过程,我们
相关文章
相关标签/搜索