AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介

时间 2021-01-12

原文原文链接

前面好几篇文章都在介绍强化学习（RL），以及强化学习的一些具体算法，但是强化学习中用到的最重要的理论MDP却还没提到。这篇文章就来说说MDP。讲MDP的文章和资料非常多，理论和数学公式也能轻易找到，所以本文并不是要严谨地推导MDP，而是想让读者感性地认识MDP以及它对强化学习的重要性。本文主要的参考资料来自于David Silver 教授(DeepMind 的创始人)在UCL的课程以及Richa

>>阅读原文<<