强化学习(RLAI)读书笔记第三章有限马尔科夫决策过程(finite MDP)

第三章 有限马尔科夫决策过程 有限马尔科夫决策过程(MDP)是关于评估型反馈的,就像多臂老虎机问题里同样,可是有是关联型的问题。MDP是一个经典的关于连续序列决策的模型,其中动做不只影响当前的反馈,也会影响接下来的状态以及之后的反馈。所以MDP须要考虑延迟反馈和当前反馈与延迟反馈之间的交换。算法 MDP是强化学习问题的一个数学理想化模型,以此来精确地从理论上描述。这章将会介绍强化学习里的一些关键问
相关文章
相关标签/搜索