什么是马尔可夫决策过程

时间 2020-06-03

标签什么决策过程繁體版

原文原文链接

做者|Nathan Lambert
编译|VK
来源|Towards Data Science算法

马尔可夫是安德烈·马尔科夫(Andrey Markov)，他是著名的俄罗斯数学家，以其在随机过程当中的工做而闻名。机器学习

“马尔可夫”一般意味着在当前状态下，将来和过去是独立的。函数

创建Markovian系统的关键思想是无记忆。无记忆是系统历史不会影响当前状态的想法。用几率表示法，无记忆性转化为这种状况。考虑一系列动做产生的轨迹，咱们正在寻找当前动做将带给咱们的位置。长的条件几率可能看起来像：学习

如今若是系统是Markovian，则历史将所有包含在当前状态中。所以，咱们的第一步分配要简单得多。spa

这一步是改变计算效率的规则。马尔可夫性质是全部现代强化学习算法的存在和成功的基础。.net

MDP由如下定义：代理

状态集$s\in S。状态是代理程序全部可能的位置。在下面的示例中，它是机器人位置。
一组动做$a\in A$。动做是代理能够采起的全部可能动做的集合。在下面的示例中，这些动做的下方是{北，东，南，西}。
转换函数T(s，a，s')。T(s，a，s')保持MDP的不肯定性。给定当前位置和给定动做，T决定下一个状态出现的频率。在下面的示例中，转换函数多是下一个状态在80%的时间内处于目前动做方向，而在其余20%的状况下偏离了90度。在下面的示例中，机器人选择了北，但每一个机器人有10%的机会向东或向西移动。
奖励函数R(s，a，s')。最大化报酬总额是任何代理的目标。此函数说明每一个步骤可得到多少奖励。一般，为鼓励快速解决方案，每一个步骤都会有少许的负奖励(成本)，而在最终状态下会有较大的正面(成功的任务)或负面(失败的任务)奖励。例以下面的宝石和火坑。
开始状态s0，也许是结束状态。

这个定义给咱们提供了一个有限的世界，咱们创建了前进的模型。咱们知道每一个转换的确切几率，以及每一个动做的效果。最终，该模型是一种方案，咱们将在知道本身的操做可能会出现错误的状况下计划如何采起行动。blog

若是机器人就在火坑旁边，机器人是否应该老是选择北方，可是北方有可能把它送到东边掉入火坑？ci

不，最佳策略是西方。由于最终进入墙壁将(有20%的机会)向北移动，并使机器人驶向目标。资源

学习如何在未知环境中行动是了解环境的最终目标。在MDP中，这称为策略。

策略是一项函数，可以让你根据状态执行操做。π*：S→A.

制定策略的方法不少，可是核心思想是值和策略迭代。这两种方法均可以迭代地为状态(多是动做)的总效用创建估算。

状态的效用是(折后)奖励的总和。

一旦每一个状态都具备效用，那么高层的规划和策略制定就会遵循最大效用的路线。

在MDP和其余学习方法中，模型会添加折扣因子γ来优先考虑短时间和长期奖励。折扣因素在直觉上是有道理的。经过将奖励的总和转换成几何级数，折扣因子也带来了巨大的计算收敛性。

欢迎关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官方文档：
http://sklearn123.com/

欢迎关注磐创博客资源汇总站：
http://docs.panchuang.net/