深度强化学习-笔记02

时间 2021-01-21

原文原文链接

这次的任务我个人认为还是比较多的，很多涉及数学公式的内容，推公式就比较难。 1.马尔可夫决策过程(MDP) 这里先介绍强化学习中agent与environment的交互过程，如下图： agent在得到环境的状态过后，它会采取行为，它会把这个采取的行为返还给环境。环境在得到agent的行为过后，它会进入下一个状态，把下一个状态传回agent。这个交互的过程是可以通过MDP来表示的。在在马尔可夫决策过

>>阅读原文<<