强化学习有限马尔可夫决策过程

时间 2021-01-13

标签机器学习繁體版

原文原文链接

一、马尔可夫动力 MDP(马尔可夫)是序列决策的经典形式化的表达，其动作action不仅影响当前的即时收益，还影响后续的状态以及未来的收益。MDP是一种通过交互式学习来实现目标的理论框架，进行学习及决策的机器被称为 agent。智能体之外所有与其相互作用的事物都被称为环境 environment。这些事物之间持续进行交互，智能体选择动作，环境对这些动作做出相应的响应，并向智能体呈现出新的状态。环境

>>阅读原文<<

强化学习 有限马尔可夫决策过程

强化学习有限马尔可夫决策过程