【强化学习】task2 马尔科夫决策过程

强化学习 第二章 2.1 马尔科夫链 2.2 马尔科夫奖励过程 2.3 马尔科夫决策过程 2.4 马尔科夫链马尔科夫奖励马尔科夫决策区别 目录 待补充。。。。。 第二章 马尔科夫决策是强化学习中最常见的一种框架 2.1 马尔科夫链 一个状态满足马尔科夫转移指的是对于一个状态只取决于它前一个的状态而与其他状态无关 图中描述了一个状态到达其他状态的概率 对于上面这样的一个图可以用状态转移矩阵来表示 每
相关文章
相关标签/搜索