马尔科夫决策过程

马尔科夫决策过程 概念与公式 1.收获:一个马尔科夫过程中从某一状态开始直到终止状态时所有奖励的有衰减之和(R为奖励,gamma为衰减系数)。 2.价值:马尔科夫奖励过程中状态收获的期望。 3.价值函数:价值函数建立了从状态到价值的映射。 4.贝尔曼方程:它提示一个状态的价值由该状态的奖励以及后续状态价值按概率分布求和按一定的衰减比例联合组成。 贝尔曼方程可以写成矩阵形式 求解得的式子可以用矩阵计
相关文章
相关标签/搜索