模型汇总19 强化学习(Reinforcement Learning)算法基础及分类

前一期介绍了强化学习基础知识,今天,主要介绍强化学习各种算法理论基础。处于一个state空间下,Agent一系列动作决策问题,类似于一个马尔科夫决策过程(Markov Decision Process, MDP),即当前的状态只与前一个状态有关,因此,Agent面临的其实是在某个状态State(环境下),一个最优动作(Action)序列的决策问题。动态规划和强化学习都是基于马尔科夫链,求解一个最优
相关文章
相关标签/搜索