马尔科夫过程

在概率论和统计学中,马尔可夫决策过程提供了一个数学架构模型,用于面对部分随机、部分可由决策者控制的状态下,如何进行决策,以俄罗斯数学家安德雷·马尔可夫的名字命名。 0.引例    假设我们有一个机器人处于状态 s1s1, 它有多种动作选择可以到达终止状态 stst, 但是执行每个动作所带来的收益不一样。这时,我们需要做一个算法来帮助机器人选择动作序列,来保证到达终止状态 stst 时收益最高,这时
相关文章
相关标签/搜索