强化学习（RLAI）读书笔记第三章有限马尔科夫决策过程（finite MDP）

时间 2019-12-13

标签强化学习 rlai 读书笔记第三有限决策过程 finite mdp 繁體版

原文原文链接

第三章有限马尔科夫决策过程有限马尔科夫决策过程（MDP）是关于评估型反馈的，就像多臂老虎机问题里同样，可是有是关联型的问题。MDP是一个经典的关于连续序列决策的模型，其中动做不只影响当前的反馈，也会影响接下来的状态以及之后的反馈。所以MDP须要考虑延迟反馈和当前反馈与延迟反馈之间的交换。算法 MDP是强化学习问题的一个数学理想化模型，以此来精确地从理论上描述。这章将会介绍强化学习里的一些关键问

>>阅读原文<<