马尔科夫奖赏过程

0 前言 本文写作目的:尽量通俗讲解强化学习知识,使读者不会被各种概念吓倒!本文是第一篇,但是最关键的一篇是第二篇马尔科夫决策过程(Markov Decision Process,MDP),只有充分理解了马尔科夫决策过程,才能游刃有余的学习后续知识,所以希望读者能够将MDP深入理解后再去学习后续内容。 由于本人水平有限,文章写作顺序几乎是完全按照David Silver强化学习课程讲解,但是会补充
相关文章
相关标签/搜索