强化学习与马尔可夫决策

在上一篇文章 强化学习的基本概念 中,用大白话介绍了强化学习的一些基本概念,尤其是强化学习的基本过程。在了解了强化学习的基本概念之后,在本篇文章中,笔者将介绍一下马尔可夫决策过程,用马尔可夫决策过程来形式化的描述强化学习。 强化学习与马尔可夫决策过程 首先回顾一下Agent与Environment交互的过程。 在每一个时刻,Agent会观察到Environment的状态。根据状态,Agent通过决
相关文章
相关标签/搜索