模型汇总19 强化学习（Reinforcement Learning）算法基础及分类

时间 2021-01-16

原文原文链接

前一期介绍了强化学习基础知识，今天，主要介绍强化学习各种算法理论基础。处于一个state空间下，Agent一系列动作决策问题，类似于一个马尔科夫决策过程（Markov Decision Process， MDP），即当前的状态只与前一个状态有关，因此，Agent面临的其实是在某个状态State（环境下），一个最优动作（Action）序列的决策问题。动态规划和强化学习都是基于马尔科夫链，求解一个最优

>>阅读原文<<