强化学习系列（四）：动态规划

时间 2021-07-14

标签强化学习动态规划繁體版

原文原文链接

一、前言在强化学习系列（三）：马尔科夫决策过程中，我们提到了什么是马尔科夫过程，并且表示大部分强化学习问题都可以看做满足马尔科夫决策过程，但我们没有说如何求解马尔科夫决策过程。在本章中，我们将介绍如何用动态规划（Dynamic Programming, DP)的方法求解马尔科夫决策过程，此处，我们假设需要求解的MDP是环境完全已知的。（注意：这不同于强化学习问题，大部分强化学习问题都是环境部分未

>>阅读原文<<